AI 效能標竿：建置前的參考

October 4, 2019

Brandon Lewis

人工智能，邊緣計算，視覺

AI 已建置出新一代晶片，其設計可在輸送量、延遲與耗電量之間取得平衡。

GPU、FPGA 和視覺處理器 (VPU) 等 AI 加速器均針對類神經網路工作負載的運算最佳化。這些處理器架構讓電腦視覺 (CV)、語音辨識和自然語言處理等應用得以實現。它們也讓物聯網邊緣裝置上的本機 AI 推斷得以付諸實行。

但是，效能標竿顯示這些加速器的重要性並不相同。選擇任一加速器都可能會對系統輸送量、延遲、耗電量和整體成本造成嚴重影響。

瞭解 AI 推斷

務必確實瞭解何謂類神經網路，以及運算這些網路所需具備的條件。這有助於釐清稍後要檢視的效能標竿。

類神經網路是模擬人類大腦的 AI 技術子集。類神經網路並非單一演算法，它通常是由多個軟體演算法集結而成，層層堆疊，就像蛋糕一樣。

每一層都會對輸入資料集進行分析，然後根據訓練階段學到的特點來加以分類。於某一層將特定特點分類之後，其會將此輸入傳遞給後續層級。在迴旋式類神經網路 (CNN) 中，系統會執行一或多次的線性數學運算 (迴旋) 來產生這些層級的累積運算式。

例如，在影像分類中，網路會收到一張圖片。某一層會將形狀歸類為臉孔。另一層會分類四條腿。第三層可分類毛皮。套用迴旋後，類神經網路最終會推斷這是貓的影像（圖 1）。這個過程稱為「推斷」。

圖 1。類神經網路的每一層都會將輸入資料加以分析以產生輸出。（資料來源：Medium）

類神經網路處理器每次運算新層級時，都必須存取來自記憶體的輸入資料。取捨就從這裡開始。

類神經網路中的層數和迴旋越多，AI 加速器所需的效能和高頻寬記憶體存取次數就越高。但是，您也可以犧牲精確性來提高速度，或是犧牲速度來降低耗電量。這一切都取決於應用程式的需求。

GPU、FPGA、VPU 之比較

輸送量和延遲效能標竿顯示執行四個精簡影像分類類神經網路時，Intel^® Arria^® 10 FPGA、Intel^® Movidius^™ Myriad^™ X VPU 和 NVIDIA Tesla GPU 的效能狀況。這些網路為 GoogLeNetv1、ResNet-18、SqueezeNetv1.1 和 ResNet-50。

每個處理器均裝設在現成加速卡中，提供真實世界情境：

Arria 10 FPGA — 此軟體定義的可程式化邏輯裝置可提供高達每秒 1.5 兆次浮點運算 (TFLOPS) 和整合式 DSP 區塊。IEI Integration Corp. Mustang F100-A10 AI 加速卡在我們的效能標竿中呈現出這一點。

Mustang F100-A10 包含 8 GB 的 2400 MHz DDR4 記憶體和 PCIe 第 3 代 x8 介面。這些特點可支援對超過 20 個同步視訊頻道進行類神經網路推斷（圖 2）。

IEI Mustang F100-A10 包含一個 Intel® Arria® 10 FPGA — 圖 2。IEI Mustang F100-A10 包含 Intel^® Arria^® 10 FPGA。（資料來源：IEI Integration Corp.）

Myriad X VPU — 這些硬體加速器整合了類神經運算引擎、16 個可程式化 SHAVE 核心、超高輸送量記憶體網狀架構，以及支援高達八個 HD 攝影機感應器的 4K 影像訊號處理 (ISP) 管線。這些資訊都包含在 IEI Mustang-V100-MX8 的效能標竿中。

Mustang-V100-MX8 整合了八個 Movidius X VPU，因此可同時對多個視覺管道執行類神經網路演算法（圖 3）。每個 VPU 都僅耗用 2.5 瓦的電力。

IEI Mustang V100-MX8 包含八個 Intel® Movidius™ Myriad™ X VPU — 圖 3. IEI Mustang V100-MX8 包含八個 Intel^® Movidius^™ Myriad^™ X VPU。（資料來源：IEI Integration Corp.）

NVIDIA Tesla GPU — 這些推斷加速器採用 NVIDIA Pascal 架構，能以相當於 CPU 1/15 倍的延遲提供 5.5 TFLOPS 的效能。NVIDIA P4 超大規模推斷平台會受到效能標竿的影響。

圖 4 顯示效能標竿結果。輸送量是以每秒分析的影像數來表示，而延遲則代表分析每個影像所需的時間（以毫秒為單位）。

圖 4。推斷加速器的延遲（頂端）和輸送量（底端）效能標竿。（資料來源：IEI Integration Corp.）

輸送量和延遲效能標竿顯示，以整個類神經網路工作負載來看，FPGA 和 VPU 加速器的效能明顯優於 CPU。如圖 5 所示，IEI Mustang 產品的散熱設計功率 (TDP) 額定值與價位點明顯較低。

IEI Mustang F-100-A10 和 V100-MX8 耗電量明顯低於其他產品 — 圖 5。IEI Mustang F-100-A10 和 V100-MX8 的耗電量明顯低於其他產品。（資料來源：IEI Integration Corp.）

除了效能標竿以外的比較

GPU 在這類小批次處理工作上表現較差的原因，與架構有很大的關係。

GPU 通常由含有 32 個核心的區塊組成，所有區塊都是平行執行相同指令。這種單一指令、多重資料 (SIMD) 架構讓 GPU 能夠比傳統處理器更快速地處理大量的複雜工作。

但是，延遲與這些存取記憶體資料的核心有關，而 P4 上的記憶體就是外部 DDR5 SDRAM。在較大的工作負載中，由於平行處理方式能套用多個核心的效能，因此延遲問題不容易被注意到。在較小的工作負載中，延遲比較顯而易見。

相對地，FPGA 和 VPU 因為其架構彈性之故，因此在較小的工作負載中表現優異。

Intel^® Arria^® 10 FPGA 內部

例如，Arria 10 FPGA 網狀架構可重新設定，以支援不同的邏輯、算術及暫存器等功能。這些功能可以組織成 FPGA 網狀架構的區塊，以符合特定類神經網路演算法的確切需求。

這些裝置也整合了可變精密的 DSP 區塊與浮點功能（圖 6）。這可提供 GPU 的平行處理，而不需要延遲的取捨。

Intel® Arria® 10 FPGA 結合 GPU 的平行處理，不會造成延遲。 — 圖 6。Intel^® Arria^® 10 FPGA 結合 GPU 的平行處理，不會造成延遲。（資料來源：Intel^® Corp.）

內部記憶體和高頻寬內部互連，讓邏輯區塊可直接存取資料，因而造就超低延遲。因此，Arria 10 裝置可以比 GPU 更快速地擷取和運算小批的推斷資料，進而大幅提高輸送量。

利用 Intel^® Movidius^™ Myriad^™ X VPU 的彈性運算與記憶體

同時，Myriad X VPU 的類神經運算引擎還提供專用的晶片內建 AI 加速器。類神經運算引擎是一種硬體區塊，能以最低耗電量及高達每秒 1 兆次的運算作業 (TOPS) 來處理類神經網路。

類神經運算引擎配備前述的 16 個可程式化 SHAVE 核心。這些 128 位元向量處理器結合成像加速器和硬體編碼器，打造高輸送量的 ISP 管線。事實上，SHAVE 核心可以一次執行多個 ISP 管道。

管線中的每個元件都可以存取共同的智慧記憶體網狀架構（圖 7）。因此，類神經網路工作負載可在經過最佳化的神經運算引擎中終止，不需耗費多重記憶體存取所產生的延遲或電力。

Myriad™ X VPU 包含高輸送量影像訊號處理管線 — 圖 7。Myriad^™ X VPU 包含高輸送量影像訊號處理管線。（資料來源：MIPI Alliance）

查看效能標竿

本文說明晶片架構與硬體加速器的創新如何在邊緣實現 AI。雖然每種架構各有其優點，但是必須通盤考量這些平台對於類神經網路作業和系統之運算效能、耗電量和延遲有何影響。

為此，請務必先查看效能標竿，再著手進行下一個 AI 設計。

AI 效能標竿：建置前的參考

瞭解 AI 推斷

GPU、FPGA、VPU 之比較

除了效能標竿以外的比較

Intel^® Arria^® 10 FPGA 內部

利用 Intel^® Movidius^™ Myriad^™ X VPU 的彈性運算與記憶體

查看效能標竿

啟發開發者社群創新 AI 技術的動能

快速追蹤工業數位轉型

智慧白板助力無縫數位協作

解決 5G OpenRAN 的設計難題

利用工業邊緣實現工廠現代化

邁向邊緣網路之旅

技術夥伴關係為商業解決方案奠定基礎

反向代理伺服器提升 AI 網路安全

Intel® Xeon® 6 處理器讓 AI 無所不在

多感官 AI：減少停機時間並提升效率

3D LiDAR 提供空間智慧

IPC 加速醫療裝置製造商的上市時間

利用 3D LiDAR 解鎖全新可能性

影像擷取卡測試車用攝影機

AI 電腦讓您掌握邊緣 AI 的力量

生成式 AI 聊天機器人簡化我們的工作方式

用於城市管理的智慧城市軟體套件

嵌入式系統：在功率、效能與 AI 之間取得平衡

加速放射線介入性治療系統的開發

資料可觀測性助力金融科技高速營運

瞭解 AI 推斷

GPU、FPGA、VPU 之比較

除了效能標竿以外的比較

Intel® Arria® 10 FPGA 內部

利用 Intel® Movidius™ Myriad™ X VPU 的彈性運算與記憶體

查看效能標竿

Intel^® Arria^® 10 FPGA 內部

利用 Intel^® Movidius^™ Myriad^™ X VPU 的彈性運算與記憶體