影像分割：探索 Segment Anything 的威力

April 18, 2024

Christina Cardoza

影像分割

技術創新十分神奇，現在更是日新月異。（但更新不至於快到我們不再提起：「如果當初有這個工具，我可以省下多少時間和精力啊！）這話套在 AI 和電腦視覺尤其適用，兩者改變各行各業的營運方式，而且對眾多企業而言堪稱是至寶。而在完整的 AI/電腦視覺版圖中，影像分割是關鍵的一環。

Intel 的 AI 技術傳教士 Paula Ramos 與我們共同探討這個瞬息萬變的主題。她提到影像分割過去、現在和未來的解決方案、深入討論 Meta AI 最近推出的 Segment Anything 模型（SAM）（影片 1），並說明 Intel OpenVINO^™ 工具組提供的資源可讓 SAM 的效能更佳。

影片 1。Intel 的 AI 技術傳教士 Paula Ramos 論述支援日後影像分割的近期進展。（資料來源：insight.tech）

影像分割對電腦視覺的影響是什麼？

電腦視覺工作分為很多類型，我想其中就屬影像分割最為重要。影像分割在物件偵測、辨識、分析發揮決定性的作用。或許我們該問：影像分割為什麼如此重要？答案很簡單：影像分割可區分背景與個別物件，或個別物件與其他物件。我們可以透過影像分割定位重要資訊、建立特定物件的計量指標、擷取一些功能，協助瞭解特定情境……這些對電腦視覺再重要不過。

過去組建影像分割解決方案時，開發者會面臨哪些挑戰？

我的博士論文研究農業的影像分割，並面臨許多挑戰，因為分割物件的技術有很多（閾值、邊緣偵測、區域增長），但沒有一體適用的方法。您甚至必須根據使用的技術，仔細定義最佳方法。

我的研究是偵測咖啡豆，可是咖啡豆都大同小異，十分相像！或許紅色底色也是問題，導致執行影像分割演算時出現過度分割（合併物件），再不然就是分割不足，部分果實消失不見。

涉及影像分割時，環境的光線持續變化，各種攝影機解析度不同，資料更難獲取，是一大挑戰。而且攝影機原則會移動，導致影像模糊，或出現雜訊。偵測邊界也是難題。除此之外，傳統影像分割還面臨縮放和效率的挑戰。運算成本會因為影像解析度或資料集的大小攀升，所以即時應用可能受限於此。

大多時候，這些傳統方法需要人為干預才能使用。如果當初有最新影像分割技術，我可以省下很多時間。

Meta AI 的 Segment Anything 模型（SAM）為什麼重要？

我巴不得七年前就有 Segment Anything 模型！簡單來說，SAM 提升處理複雜資料集的效能。所以雜訊、模糊影像、低對比度等對 SAM 來說不再是問題。

SAM 的另一項優點是多功能和提示控制。不同於傳統方法（各種情境需要特定技術），SAM 的多功能方便使用者使用提示指定所需分割。而提示可以是點、方塊，甚至自然語言描述。

我很希望之前可以下令「我只要查看成熟的咖啡豆」或「我只要查看未成熟的咖啡豆」，並享有現有影像分割的靈活性。這種靈活性讓開發者可以處理各種分割工作。我之前也提到縮放和效率：SAM 處理資訊的速度比傳統方法快。所以這類即時應用更經濟永續，準確度也提升。

不消說，影像分析仍有一些限制需要人為權衡，但我們當然也會提升處理這些難題的效能。

Segment Anything 模型的商機是什麼？

目前所知，Segment Anything 模型在各種影像分割處理潛藏多種商機。例如，簡單建立內容或編輯內容、自動操作電子郵件，或建立即時特效。另外，SAM 的即時物件偵測也對擴增實境或虛擬實境領域有重大影響，互動體驗的虛擬元件因而得以實現。

抑或零售業可用於產品區分。SAM 會自動分割網路商店的產品影像，實現更有效的產品銷售。另一個可能的領域是，根據特定物件特色分類。不僅如此，我判斷影像分割可用於機器人和自動化，協助各種工作更精確地辨識、操作物件。自動駕駛就更不用說了。SAM 還能輔助醫療專業人員區分腫瘤或診斷更準確──儘管這類運用仍有很多疑慮。

我不會直說 SAM 可以解決這些業務，因為這些只是可能的運用。SAM 仍在開發、不斷改善。

開發者如何透過 OpenVINO^™ 解除 SAM 的限制？

目前的 AI 趨勢帶來的優點是大量的開源模型。換句話說，SAM 可以享有開源模型的功能。OpenVINO 也是開放原始碼，所以很方便開發者使用這個工具組。我們每天在 OpenVINO 筆記本存放庫輸入多種 AI 趨勢（即 AI 領域的新知），並每隔兩三天上傳筆記本至存放庫。然後，我們有好消息要給開發者：OpenVINO 存放庫的 SAM 管道已最佳化。

目前存放庫有四部筆記本。第一部筆記本是我們一再提到的 Segment Anything 模型，也是最常見的。您可以直接使用 OpenVINO 編譯模型，或使用神經網路壓縮架構（NNCF）最佳化模型。

第二部是 Fast Segment Anything 模型。原始 SAM 是重型轉換器模型，所以需要大量運算資源。我們無疑可透過量化解決這項問題，但 FastSAM 使用 YOLOv8 分解 Segment Anything 工作為兩個連續階段。

另外是輕型 SAM 模型 EfficientSAM，大幅降低複雜度後突顯 SAM 的效能。最後一個資源是 OpenVINO 存放庫最近發布的「GroundedSAM」，即 GroundingDINO 與 Sam。概念是尋找周框方塊，同時分割周框方塊中的影像。

最棒的是，執行這些筆記本不需使用特定機器，筆記型電腦就可執行，並透過現有的模型一睹影像分割的潛力。

OpenVINO 會如何隨 SAM 和 AI 持續發展？

我想組建深度學習應用程式時，OpenVINO 是降低難度的絕佳工具。如果您已具備 AI 專業知識，不妨再深入瞭解 AI 趨勢，順便瞭解 OpenVINO 如何簡化日常工作。但如果您是開發新手，或非 AI 專業的開發者，OpenVINO 是最適當的起點，因為您可以查看我們提供的範例，及參考 Jupyter Notebook 每個儲存格。

我們保證繼續建立更多範例，及更多 OpenVINO 筆記本。我們優秀的工程師團隊會致力於更新，並努力建立實用的範例：日常可用的概念證明。

另外，AI 電腦去年 12 月上市。我想您不妨趁此機會瞭解 Intel 持續增強的功能，因為我們提升他們使用的硬體，開發者不必購買特定硬體執行最新的 AI 趨勢。您可以在筆記型電腦執行模型，也可以提升效能。

我幾年前是開發初學者，所以我認為當前一定要瞭解 AI 的運作方式、產業差距，棋先一著、改善並嘗試創新。

再者，我認為使用者要理解我們持續探索您的需求：您希望實現什麼？我們開放協作，所以敬請檢視 OpenVINO 筆記本存放庫，查看您可以如何貢獻一己之力。