Skip to main content

需要更多物聯網資料?試試串流處理

根據最近一份 IDC 白皮書指出,到 2025 年為止,全球的電子系統會產生出 160 ZB 資料,令人驚訝。這類資料有將近 25% 由即時物聯網裝置產生。可惜,因為可用的儲存容量不足,因此僅能儲存一部分即時資料。

資料量爆增,加上儲存容量有限,造成了嚴重的問題:

  • 您如何在儲存最少量資料的同時,避免遺失寶貴的資訊以及資料所能提供的深入分析?
  • 如何即時將各個事件相互關聯,讓您的企業可以主動因應而不是事後反應?
  • 您如何馬上針對事件的關聯性採取行動,以便為客戶提供更好的服務並超越競爭對手?

Steve Wilkes 是 Striim, Inc. 的科技長與共同創辦人,他認為記憶體內串流資料處理與分析便是解答。

「若您無法儲存所有資料ー事實上,若您只能儲存一部分資料的話ー您就只有一種結論,用串流的形式,在儲存資料之前先在記憶體內處理和分析。」Wilkes 說道。

記憶體內串流資料處理與分析:基本知識

串流處理可以在記憶體內持續分析資料流,只把狀態變更匯出到檔案系統或資料庫(圖 1)。此程序稱為變更資料擷取 (change data capture, CDC),在物聯網的環境中尤為實用,因為它允許系統確認相關資訊,同時摘要擷取較不重要的資料點。

圖 1. 串流處理會分析本機記憶體的狀態或數值變更,並且只把這些寫入檔案系統或資料庫,藉此減少物聯網資料儲存。(資料來源:IBM

Wilkes 解釋道:「若您不知道為什麼我們會有批次處理資料的功能,真的是因為過去儲存裝置比 CPU 和記憶體便宜。」 「批次的概念是從前囿於技術限制的人為製造物。」但是現在 CPU 和記憶體的價格比較便宜了,Wilkes 表示,您可以擷取變更資料並把它轉變為資料流。

要知道串流處理和 CDC 對物聯網部署有何助益,溫度監控應用程式便是好例子。與其盲目地把多個批次的相同溫度數值寫入資料庫,串流處理和 CDC 會把最近的機器記錄與相關資料流中的最後一個數值做比較。若是新的機器記錄含有一個溫度讀數與資料庫中最後記錄的數值相符,則會捨棄記錄。若是新的機器記錄含有不同的溫度讀數,便把該溫度寫入資料庫,然後再重覆這個循環。

串流處理和 CDC 的顯著好處是需要較少儲存空間,因為可以忽略非常大量的重複性資料。其他附加好處包括:

  • 從較小、更具意義的資料集加速取得更有見地的分析
  • 降低與較小資料集相關的網路傳輸成本
  • 處理器時脈週期的使用效率更好,因為分析各批次歸檔機器記錄的時間較短,而這些記錄中大部份是重複性資訊

從物聯網邊緣到企業的串流處理

在物聯網邊緣使用案例中,通常會在閘道或公司內部的伺服器上部署串流處理和 CDC,讓開發人員享有最大的資料平行處理效能與運算密度(圖 2)。換言之,把 CDC 功能套用到使用相同處理器 I/O 和記憶體資源的串流輸入資料集,有助於最佳化效能和減少延時。

圖 2. 在閘道或公司內部伺服器執行串流處理和變更資料擷取 (CDC) 可減少儲存需求、縮減網路傳輸成本和改善分析效能。(資料來源:Striim, Inc.

閘道與伺服器處理器很可能是多核心裝置,含有充足的晶片內建記憶體和整合型 GPU 或訊號處理功能。在網路邊緣的感應器和傳動器上流通的大部分是訊號型資料流,正好與這個特色的功用相符,而且支援密集運算型工作負載,例如可與更複雜的事件處理資料流整合的機器學習 (ML)。

以這些要求為準,Intel® Core 和 Intel® Xeon® 處理器是串流處理的理想選擇。

但是在邊緣以外,透過串流處理和 CDC,企業可以利用即時物聯網資料的架構性要求將既有的系統現代化,並因此受惠。企業的歷程資料庫含有長期累積下來的大量營運資料,利用 CDC 和串流處理可同樣節省儲存空間和減少網路成本,同時改善閘道或公司內部伺服器的分析功能(圖 3)。

圖 3. 變更資料擷取 (CDC) 可以套用到物聯網架構較上層的應用,從舊有的設備中建立即時資料流。(資料來源:Striim, Inc.

諸如製造、醫療和資安等產業過去要花費數小時、數日甚至更多的時間,從大型的資料湖泊擷取重要的資訊,如今可以利用事件導向的基礎架構在數分鐘或數秒鐘內取得營運相關的深入分析,藉此獲得優勢。整體而言會讓資料流通更流暢、透明,無論從北到南、西到東或任何方向,資訊可以到達物聯網架構的任何地方(圖 4)。

圖 4. 串流處理可以協助企業盡量減少儲存空間和網路成本,同時增加分析速度。(資料來源:Striim, Inc.

Wilkes 表示:「在這個架構的框架之中利用變更資料擷取,您可以把歷程資料當作是即時物聯網資料。」 「您可以藉用這個方法,把製造設備或其他設備中負責寫入資料庫的既有投資現代化。」

比如,Striim 平台是一個 SQL 型串流整合與分析軟體套件,允許把即時、記憶體內的 CDC 套用到感應器節點直至企業資料庫。Striim 環境中的應用是使用資料流開發的,它從一個資料來源開始,使用 SQL 在階層中某處進行處理,再寫入相關的檔案系統、資料或雲端儲存庫中。

Striim 與許多企業軟體工具整合,讓多個複雜資料流的關聯更便利,並用相容的檔案或資料庫格式提供那些結果。

高速物聯網分析可減少儲存量,發揮最高敏捷性

隨著物聯網裝置產生的即時資料越來越多,企業組織必須衡量保留資料的成本以及管理和分析大量資料所需的時間,是否與所提供作為行動準則的資訊相當。由於大部分企業組織均想要利用最新、最珍貴的資料並從中獲益,記憶體內串流處理和分析可替代資料儲存,盡量減少資本和營運支出,同時提高業務敏捷性和加速決策周期。

「這個串流方法協助您取得轉型的構想,您可以即時整合和連結資料。」Wilkes 說道。確實,這是物聯網數位轉型最後的元件,也是我們期待甚久的。

要進一步瞭解記憶體內串流處理,請觀看網路研討會「Addressing the Fundamental Challenges to IoT Data Management」。

作者簡介

Brandon is a long-time contributor to insight.tech going back to its days as Embedded Innovator, with more than a decade of high-tech journalism and media experience in previous roles as Editor-in-Chief of electronics engineering publication Embedded Computing Design, co-host of the Embedded Insiders podcast, and co-chair of live and virtual events such as Industrial IoT University at Sensors Expo and the IoT Device Security Conference. Brandon currently serves as marketing officer for electronic hardware standards organization, PICMG, where he helps evangelize the use of open standards-based technology. Brandon’s coverage focuses on artificial intelligence and machine learning, the Internet of Things, cybersecurity, embedded processors, edge computing, prototyping kits, and safety-critical systems, but extends to any topic of interest to the electronic design community. Drop him a line at techielew@gmail.com, DM him on Twitter @techielew, or connect with him on LinkedIn.

Profile Photo of Brandon Lewis