尋找談話者：AI 在視訊會議的應用

September 30, 2019

Brandon Lewis

數字顯示，物聯網，物聯網，人工智能

人工智慧 (AI) 不僅徹底改變我們設計科技的方式，同時也顛覆我們運用科技的模式。舉例來說，AI 即將被整合到視訊會議系統等日常解決方案中。

這些系統會運用臉部辨識來追蹤正在發言的人員，並調整攝影機角度讓他們能夠完整入鏡。系統會自動顯示發言者的姓名、職稱，以及其他個人資訊。某些系統甚至會透過人體姿勢分析和手勢辨識來判定與會者是否要發言。

整合自然語言處理的協同合作系統可即時將通話轉錄為文字或將語音翻譯為其他語言。「虛擬助理」會負責記錄、顯示相關檔案，以及排程會議通話。

將這些功能設計到視訊會議系統等常見裝置中可附加真正價值。但這也帶來了嚴峻的工程挑戰，尤其是在會受到延遲影響的方面。

延遲問題

使用過 Siri 或 Alexa 的每一個人都會承認從提出問題到收到系統回應有著顯著的延遲。這是因為這些系統大部分的自然語言處理都在雲端進行。

協同合作系統必須即時提供語音、視訊和所有 AI 功能。否則品質幾乎就會立即受到影響。為了避免延遲增加，必須使用內部部署的視訊會議系統來為 AI 提供本機支援。

在本機運行 AI 可沒說起來那麼簡單，尤其是在動輒影響成本和功耗的視訊會議系統上。在某種程度上，這是因為影像和語音辨識一般都採用多層類神經網路演算法。為了運算每個階層，處理器必須頻繁存取記憶體以擷取攝影機或麥克風等輸入裝置的資料。（圖 1）。

圖 1。類神經網路等 AI 工作負載必須頻繁存取高速記憶體。（資料來源：Omnitek）

這是許多設計決策的第一步。選擇像是 GPU 的 AI 處理器就還需要獨立的 DRAM，這會增加延遲、耗電量和發熱量，因為必須頻繁存取記憶體。這也會增加器材的整體費用。

或者可以選擇搭載整合式記憶體的運算裝置，例如 FPGA 或專用工作負載加速器。這些裝置能降低處理器加記憶體架構的成本，並減少功耗和延遲，但通常都難以程式化。

而在軟體方面，您必須最佳化影像和語音辨識演算法的大小、速度及精確度。這有助於符合視訊會議系統需求，並充分利用基礎硬體。

設計服務整合一切

將這些功能結合視訊會議系統的核心功能，會無法趕上企業 OEM 的上市時間要求。但與經驗豐富的產品設計公司合作，便可附加產品價值，同時還可保持符合市場期待。

某家製造商想要為視訊會議商品添加影像和語音辨識功能，他們選擇透過與 VVDN Technologies 合作來實現目標。

VVDN Technologies 是工程服務與製造公司，專長是影像訊號處理 (ISP)、視訊分析、影片拼接和多感應器整合。針對視訊會議市場，該公司也開發了一系列的即時邊緣 AI 功能。

VVDN 與企業影像會議供應商合作，協助開發具有 180 度視野 (FOV) 的無風扇攝影機系統，整合了先進的卷積神經網路 (convolutional neural network) 演算法。這些 AI 演算法亦支援語音擷取、人體姿勢分析、手勢辨識等影像和語音辨識應用。

VVDN 使用兩個 Intel^® Movidius^™ Myriad X 視覺處理器 (Intel^® VPU) 作為攝影機的主運算元件（圖 2）。Myriad X 處理器整合了一系列的專用硬體加速器和晶載智慧記憶體網狀架構，將延遲、功耗和成本降至最低。

Intel Movidius Myriad X VPU 整合視覺導向的硬體加速器及智慧記憶體網狀架構。（資料來源：<a data-cke-saved-href="https://newsroom.intel.com/press-kits/movidius-myriad-x-vpu/" href="https://newsroom.intel.com/press-kits/movidius-myriad-x-vpu/">Intel<sup>®</sup> Corp.</a>） — 圖 2。Intel^® Movidius^™ Myriad X VPU 整合視覺導向的硬體加速器及智慧記憶體網狀架構。（資料來源：Intel^® Corp.）

Myriad X VPU 的 AI 處理管線開頭為 16 個 MIPI 線道，可支援最多八個 HD 解析度的攝影機。透過這些介面取得影像或視訊資料後，便會傳輸至支援 30 Hz 和 60 Hz 畫格率 4K 解析度的內建硬體編碼器。

然後資料便會傳輸進高流量影像與視覺硬體加速器、一組 16 個可程式化的向量處理器、一個稱為「神經運算引擎」的專用 AI 工作負載處理器，或是傳輸進上述三者的任意組合。

並透過一種共用晶片智慧記憶體網狀架構整合這些處理元件。這代表資料能在 ISP 管線中移動，且運算元件無需重複存取額外的記憶體模塊。直接記憶體存取 (DMA) 亦可使超過一個運算元件同時存取共用記憶體，實現對一或多個視訊串流的平行處理。

因此，Myriad X 處理器有助於最小化功耗、發熱量，以及與其他架構相關的成本。事實上，裝置僅會消耗 2.5 瓦的電量，且較獨立的 GPU 與 FPGA 產品便宜許多。

工作中的 AI 整合

在 VVDN AI 視訊會議系統設計中，Myriad X VPU 會由兩個輸入擷取每秒 30 畫面格數 (FPS) 的 HD 視訊。接著會在其中一個 VPU 的神經運算引擎上執行 MobileNet 臉部偵測、手勢辨識，以及人體姿勢分析 CNN 演算法，以最高 4 fps 的頻率進行推斷。然後，經過分析的影片會透過裝置的 USB 3.1 介面串流。

第二個 Myriad X 處理器負責語音處理，整合設定為 OEM 特定 AI 語音服務的關鍵字喚醒引擎。即使在吵雜的真實世界環境中，也能在視訊會議裝置上提供精確、超低延遲的自動化語音辨識 (ASR) 能力。

雙 VPU 亦可接合兩個 4K 視訊串流，提供多種視訊功能，包括自動取景、與會者縮放和子母畫面 (PiP)。

由於 VVDN 針對軟體進行了最佳化，這些功能總共只需使用 12 MB 的系統記憶體。