利用音訊型生成式 AI 協調創新

April 1, 2024

Christina Cardoza

生成式人工智慧

人工智慧是許多不同技術的總稱。我們常聽到的包括生成式 AI ，尤其是 ChatGPT。ChatGPT 獲得新聞媒體的熱烈報導，但生成式 AI 的播放清單中可不只這首歌。Intel 的 AI 軟體架構師暨生成式 AI 宣傳員 Ria Cheruvu 最近就對音訊空間的生成式 AI 興奮不已（影片 1）。

影片 1。Intel 的生成式 AI 宣傳員 Ria Cheruvu 探索音訊型生成式 AI 的業務與開發商機。（資料來源：insight.tech）

但任何生成式 AI 都可能讓人生畏，而且開發者並不一定知道要從何著手，或者一旦開始，該如何最佳化模型。與 Intel 合作可以真正簡化流程。例如，新手開發者可以利用 Intel^® OpenVINO^™ 筆記型電腦，藉由教學課程和範例代碼來協助他們著手使用 GenAI 。然後，當他們準備進入下一階段或準備擴展時，Intel 也會伴隨左右。

Ria Cheruvu 與我們討論 OpenVINO 筆記型電腦儲存庫，和生成式 AI 用於音訊的實際應用，以及它適用於呼叫中心和實際用於音樂家之間的差異。

生成式 AI 有什麼不同的領域？

就生成式 AI 的類型而言，這個領域肯定正在發展。ChatGPT 不是唯一的例子！文字生成是生成式 AI 非常重要的一種形式，但當然也有影像生成，例如使用 Stable Diffusion 這種模型產生藝術和原型以及不同類型的影像。還有音訊領域，可讓您著手製作音樂，或為合成頭像製作音訊，以及其他許多類型的使用案例。

在音訊領域，快速執行階段尤為重要，這也是常見的痛點之一。您希望模型非常強大，能夠快速產生高品質的輸出，這需要大量的運算資源。所以我想說，最佳化生成式 AI 模型的技術堆疊絕對至關重要，這也是我在 Intel 日常職務中鑽研的一環。

適用於音訊的生成式 AI 有什麼具體商機？

使用語音 AI 或對話式 AI 讀取及處理音訊，光是用想的就很有意思，這是您使用語音代理程式（就像手機上的語音助理）所做的事。將它和用於音訊的生成式 AI 比較：您實際創作內容，例如能夠產生合成頭像或聲音，以便撥打電話和交談。您第一個想到的業務應用肯定是話務中心，或 Metaverse 應用程式，其中存在使用此建立之音訊的模擬環境。

但創作領域的內容創作也存在一些非傳統的業務使用案例，也是我們開始看到一些與音樂生成式 AI 相關應用的地方。對我來說，這相當令人興奮。Intel 開始研究生成式 AI 如何搭配藝術家的工作流程：例如建立構圖，以及使用生成式 AI 採樣節拍。音樂家與音樂製作人如何利用生成式 AI 作為內容創作工作流程的一環，其中也包含很有意思的文化元素。

因此，雖然它不是傳統的業務使用案例（如您在話務中心或使用音訊零售服務的互動式服務亭中看到的那樣），但我確信用於音樂的生成式 AI 在內容創作方面有一些亮眼的應用。最終，它也可能進入其他需要產生音訊片段的領域，例如為 AI 系統訓練建立合成資料。

適用於音訊的生成式 AI 的開發流程是什麼？

生成式 AI 領域目前採用幾種不同的方法。其中之一肯定是調整既有的模型架構，用於其他類型的生成式 AI 模型。例如，Riffusion 基於影像生成模型 Stable Diffusion 的架構；只產生波形，而非影像。

我最近和正在音樂領域研究的人聊過，其中一個話題是您可以提供這些音訊領域模型各式各樣的輸入資料。可以是音符（或許是鋼琴曲目的一個片段），也可以是專門用於 MIDI 格式等使用案例的波形或特定輸入類型。輸入資料包羅萬象。

訓練和部署這些模型需要哪些技術？

我們一直在研究許多有趣的生成式 AI 工作負載，作為 Intel OpenVINO 工具組和 OpenVINO Notebooks 儲藏庫的一環。我們整合了許多音訊生成的關鍵範例，作為非常實用的使用案例，來提示及測試生成式 AI 功能。我們與 Intel 的其他團隊合作無間，使用 Riffusion 模型建立 Taylor Swift 類型的流行節奏，乃至於更進階的模型，可以產生與某人說話相符的音訊。

我透過 OpenVINO 見證了一件事，那就是能將這些模型全都最佳化，特別是在記憶體和模型大小方面，也能在邊緣、雲端和用戶端之間實現靈活性。

OpenVINO 真正針對的是最佳化部分。有一個基本概念，即生成式 AI 模型在大小和記憶體佔用空間很大；這些模型的基礎（包括音訊、影像或文字生成），其中的某些元素非常龐大。透過使用壓縮和量化相關技術將模型佔用空間減半，我們能夠大幅減少模型大小，同時確保維持類似效能。

這全都是由一個非常有趣的局部開發概念所啟發。音樂創作者或音訊創作者在創作內容時希望借助電腦，以及能夠在雲端工作，進行密集的任務，例如音訊資料的收集、錄製、註釋，以及與不同的專家合作建立資料集。然後他們可以在電腦上執行其他工作負載，說：「好吧，這就在系統本機產生一些有趣的流行節奏，然後在房裡進行原型設計。」

開發者馬上開始使用生成式 AI 有哪些範例？

我最喜歡討論的一個例子，就是您準確地採用我們在 Notebooks 儲存庫中展示的這些 OpenVINO 教學課程和工作負載，然後將其變為現實。Intel 與 Audacity 合作，這是一款本質上實現開放原始碼音訊相關編輯創作的工具。這是名副其實的一站式、類似於 Photoshop 的音訊編輯工具。我們做的其中一項工作，就是透過自家的外掛程式整合 OpenVINO 。我們的工程團隊從 Python 擷取 OpenVINO Notebooks 儲存庫的程式碼，將其轉換為 C++，然後部署為 Audacity 的一環。

它能達成我前面提到的更多效能和記憶體改善，但同時也直接整合至許多編輯和播放音訊的許多不同人使用的相同工作流程。您只需醒目提示一段音訊，說聲「產生」，其餘的就交給 OpenVINO 產生。

這是工作流程整合的一個例子，可用於藝術家工作流程；或用於電影產業的語音製作合成音訊；或用於零售產業的互動式服務亭；或用於醫療保健領域的病患與開業醫生對話。緊密整合至工作流程，是 Intel 非常期待推動和協助合作的下一步。

生成式 AI（尤其是適用於音訊的生成式 AI）還有什麼前景？

論及適用於音訊的生成式 AI，我想對於這個領域的任何特定時刻來說，都可能「轉瞬即逝」。光是見證增添多少工作負載就夠令人驚豔了。但只要放眼不久後的未來（可能是年底或明年），我可以看到一些突然出現的發展，絕對會圍繞我前面提到的那些工作流程進行，並確定您確切想要執行的地方，是本機系統，還是雲端，或是混合兩者？這絕對是我真正感興趣的地方。

我們正在使用 Intel^® Core^™ Ultra 和類似平台，在 AI 電腦上嘗試一些音訊生成的方法，您坐在房裡與一群音樂家同行一起設計原型並隨意玩耍，理想情況下，您不必為此存取雲端。反之，您可在本機執行，將其匯出至雲端，然後來回移動工作負載。關鍵在於，要問我們如何將利益相關者納入流程，如何準確建立並實例化生成式 AI 解決方案，然後隨著時間進行維護？