臉部辨識是否會成為 AI 的第一款「殺手級應用」？

June 24, 2019

Brandon Lewis

ai人工智能面部識別

每一種改朝換代的新技術都需要一款殺手級應用。針對人工智慧，第一款這樣的應用可能就是臉部辨識。

我們現今在許多機場內看到的安全與出入管制就是以深度學習為基礎的臉部辨識能力的主要應用。但有更多進階使用案例正在興起。舉例來說，Spod 是一種機器人購物助手的原型機，使用臉部辨識判斷客戶的年齡與性別，以提供產品建議。

還有採用 AI 的複雜機器人，就像劍橋大學的智慧機器人原型機「Charles」。「他」是由學生所設計，能讀取並解譯人類的面孔表情，如以下的 Meeting an Emotional Robot 影片中所示。

「Charles」是可偵測人類情感的多種原型機之一，可用於無數的應用領域，包括人員陪伴、健康診斷，以及緊急處置等。但為了有效且可信地處理這些工作，智慧機器人需要自然的人類反應時間。

只有透過直接在邊緣運行 AI 技術，才能提供這樣的即時反應。CyberLink 公司在華盛頓大學臉部辨識演算法競賽 MegaFace Challenge 中，展現出他們在這個領域中明顯佔有領導優勢。

適用於邊緣的高效能臉部辨識

MegaFace Challenge 是一系列的效能標竿測試，邀請臉部辨識開發者對照大型訓練資料集來測試他們的演算法。

他們將各界名流與各種年齡的人們影像散佈在 10 到 1,000,000 個「干擾選項」中，這些干擾影像為其他臉孔，甚至包括 AI 訓練誤判為臉孔的一些相片。

此競爭極為嚴苛，Google 和 Tencent 等其他公司的演算法在較小型的資料集上獲得了百分之 90 的高識別正確率。但隨著干擾選項的數量增加，各家演算法的表現也逐漸低落，如圖 1 所示。

圖 1. MegaFace Challenge 效能標竿對照大型資料集測量臉部辨識演算法的正確度。（資料來源：華盛頓大學）

CyberLink 的 FaceMe AI 臉部辨識引擎以 SphereFace 演算法為基礎，表現超越 Google 的 FaceNet v8 和 SIATMMLAB 的 TencentVision。在完全於邊緣運行時，可獲得超過百分之 98.4 的正確率。

FaceMe 是專為臉部辨識引擎所設計的跨平台軟體開發套件 (SDK)，可分析年齡、性別，以及情緒等屬性。其神經網路預先經過大型影像資料庫的訓練，並相容 TensorFlow 和 Core ML 等架構，讓開發者能整合自己的訓練資料。

在訓練後，結果推斷引擎會結合壓縮至僅有 4 MB 大小的預先處理演算法。這些演算法也使 SDK 能相容從行動裝置、採用 Linux 的數位招牌解決方案，到 Windows 電腦等邊緣系統。具有這種等級的硬體與軟體相容性，代表 FaceMe 也適用於智慧城市監視、智慧零售市場，以及個人化智慧家庭機器人等使用案例（圖 2）。

圖 2。CyberLink 的 FaceMe 臉部辨識引擎可讓開發者判讀年齡、性別，以及情緒。（資料來源：CyberLink）

「現在，包括來自 AWS、Google 和 Microsoft 的大部分臉部辨識解決方案都是在雲端中執行，」CyberLink 的行銷主管 Steven Lien 說：「採用雲端技術的臉部辨識不適合特定情境，例如門禁安全系統。當您走到系統前，可能需要等待 20 到 30 秒，才能將影像或影片上傳至雲端，並將回應送回本地裝置。」

「FaceMe 針對邊緣裝置最佳化。可運行在個人電腦，以及 Windows、iOS 或 Android 手機等行動裝置上。同時亦針對 CPU 和 GPU 等不同硬體最佳化，」Lien 繼續說道：「在 FaceMe 環境中，您可以為不同的部署調整許多不同的參數，像是擷取的面孔尺寸（像素）、畫格率，以及容錯率等。」

如同 Lien 所指出，某些臉部辨識系統需要更快速的回應時間、更高的正確率，或是能同時擷取更多或更少面孔影像的能力。FaceMe 讓開發者能量身打造他們的演算法，以使用較少運算效能（適合行動應用）、降低延遲（智慧門鎖），或是同時擷取許多影像（智慧城市監視）。

在更多平台上更快速進行識別

為了讓推斷引擎相容於不同的邊緣處理器與作業系統，FaceMe SDK 需要運用 Intel^® Distribution of OpenVINO^™ 工具組等技術（圖 3）。OpenVINO 工具組是最佳化電腦視覺推斷演算法的開發工具，用於 CPU、GPU、FPGA，以及 Intel^® Movidius^™ 視覺處理器等機器學習加速器上。