Skip to main content

親身體驗、試用 AI:透過 MindsDB 實現 ML 普及化

使機器學習民主化

機器學習已成為資料管理策略不可或缺的一部分,尤其是現今從 IoT 裝置大量湧入的資料;但要篩選所有資訊可能有一定的難度。另一項挑戰是缺乏現有的機器學習(ML)專家。但是仍有企業致力推廣精密的 ML 模型,讓每個人都能更方便、更有效率地部署。

機器解決方案供應商 MindsDB 正是其中一家公司,而該公司的商業開發副總裁 Erik Bovee 希望鼓勵 ML 社群的成員馬上開始使用。他和我們談起採用 ML 的難題、學著相信模型,以及將機器學習帶入資料,而不是把資料帶入機器學習。

現今機器學習的採用情況如何?

資料的數量和複雜度正在飛速成長,遠超過人類分析。而且機器學習並不容易,因此尋找合適的人選很難。但如果講起市場的現狀,我們可以從幾個有趣的角度切入。首先,技術本身的狀況令人驚艷,光是過去 5 到 10 年間取得的進展就相當亮眼,而先進的機器學習模式可以解決難度極高的實際問題。看看使用 GPT-3 大型語言模型的 OpenAI 達到什麼成就,它現在能產生類似人類的文字。另外還有 Midjourney,只要輸入幾個關鍵字,它就能產生高度精密、令人屏息的藝術傑作。

不過,從實施的角度來看,我認為市場尚未從機器學習中大幅受益。即使是自動駕駛也差不多仍在試驗階段。讓這些功能適應消費者技術要走過一道過程,而過程中必須處理各種問題。其一就是信任。不只是:「這輛自動車可以把我平安送達目的地嗎?」也包括:「你要怎麼說服我相信這套模型精確無誤?我可以把自家企業的命運交給這套預測模型嗎?」因此,我認為這些是讓人們進一步廣泛實施機器學習的重要面向。

不過,有幾個產業的商業推廣進展很快,我認為它們是市場發展方向的良好指標。金融服務就是一個很好的例子,例如大型銀行、投資公司、避險基金。預測和演算法交易等業務優勢,對他們的利潤極其重要,而且他們擁有預算和以良好量化策略為中心的傳統招聘方法。但其中很多是在問題上投入資金,在內部解決 MLOp 的疑問,不一定適用範圍更廣的市場。

我也在工業使用案例中看到許多進展,尤其是在製造業。例如,取得大量高速感應器資料,並進行預測性維護:接下來會發生什麼事?這台伺服器何時會過熱?我認為那些產業、那些市場行為者,顯然正在迅速成熟。

推廣 AI 如何讓企業利害關係人獲得更多信任?

其中許多要從資料著手,即真正瞭解您的資料,確保沒有偏見存在。可解釋的 AI 在過去幾年成為一個很有意思的主題。若要讓企業決策者參與並準確瞭解模型如何運作,最有效的方法之一是提供與事實相反的解釋,也就是以微妙的方式變更資料,以獲得不一樣的決策。這會告訴您真正觸發決策或模型預測的原因,以及哪些欄位或功能不可或缺。 

除了技能集以外,機器學習還面臨了哪些挑戰?

我認為技能集這項挑戰會隨著時間消失。具有挑戰性的往往是一些簡單的事,一些在短期執行面進行的簡單操作。資料科學家工具集通常以 Python 為依據,而 Python 可說不太適合資料轉換。資料科學家通常會編寫這種訂製的 Python 程式碼,但資料表變更時,程式碼會怎麼樣?這全都仰賴工程師,隨著時間更新一切內容。那麼,該怎麼執行高效又可重複,並可隨著時間預測成本和經常性開支的任務?這正是我們要努力找到解方的。

我們的其中一個方法理論是讓機器學習更接近資料,並使用 SQL 等現成的工具,這些工具很適合資料轉換和操控資料。何不找個方法直接套用機器學習,比方連接您的資料庫,讓您可以使用現成的工具,而不必建立任何新型基礎結構?我認為這是一大難題。

這對資料科學家有何益處?

我們的目標之一是為資料科學家提供更多的工具組,並節省他們大量清理及操作任務的時間,讓他們真正專注核心機器學習。資料庫的資料白白放著不去使用是暴殄珍物,所以何不將機器學習模型帶進資料庫?而我們也不會浪費資料庫的資源;您只需將 MindsDB 連接到資料庫即可。我們從資料庫中讀取資料,接著將機器學習預測作為表格傳回資料庫,然後可以像您讀取其他任何您擁有的表格一樣讀取這些內容。沒有必要建立一個特別的 Python 應用程式或連接到另一種服務;它已經在那裡供您使用。它大幅減少了定製開發,長遠來看易於維護,您也能使用既有的工具。

和傳統的機器學習模型相比有何異同?

傳統的做法是使用現有的架構(例如 TensorFlow 或 PyTorch)編寫模型,一般會在 Python 中編寫。您會將它託管在某處。然後取得您想要套用的資料,也許是在一個資料湖,或者在 Snowflake 或 MongoDB。您編寫管道,以擷取該資料並將其轉換。您通常必須做一些清理的工作,然後執行資料轉換及編碼。模型會產出一些預測,然後您或許必須將那些資料輸送到另一個資料庫,或將其提供給正在做決策的應用程式。這是過去的做法。

反觀 MindsDB 則有兩大要素。其一是機器學習模型的核心套件,適用於不同的問題集。MindsDB 可以研究您的資料,然後決定並選擇哪種模型最適合採納。這個要素的另一種可能性是您自己帶走模型。如果有什麼是您特別中意的,您可以使用宣告式架構將它加進 MindsDB ML 核心。

MindsDB 的第二項要素是資料庫連接器:這個包裝函式以這些 ML 模型為中心,可連接至您所擁有的任何資料來源。它可以是串流代理程式,或資料湖,也可以是基於 SQL 的資料庫,而 MindsDB 會連接至該資料庫。接著,您可以使用原生查詢語言,告訴 MindsDB:「讀取此資料,並在這個檢視圖、這些表格或選取的資料中訓練一個預測工具。」

使用 MindsDB 有什麼優勢?

我認為必須清楚傳達這個概念:我們不是要取代任何人力。對於內部機器學習工程師或資料科學家來說,MindsDB 只是節省大量資料整頓、清理、轉換和編碼的工作。之後,這些專業人士可以真正把心力投注入核心模型,選取他們想要從中訓練的資料,然後建立最佳模型。因此,重點在於節省資料科學家的時間。

然後,從長遠來看,如果您是將它直接連接到資料庫,就不必費神維護大量的 ML 基礎結構。如果資料庫表格有所更動,只要變更一點 SQL 即可。您可以設定自己的重新訓練架構格式。如此一來,可為資料科學家節省大量時間並提供更豐富的工具集。這就是我們的目標。

您可以提供一些使用案例的範例嗎?

我們非常著重業務預測,通常是時間序列資料。想像一下,您擁有一個零售鏈,其中包含數千個 SKU:數百家零售商店成千上萬個產品 ID。也許某個 SKU 在威奇托賣得很好,但在底特律卻乏人問津。您如何能做出這種預測?這是一個有待解決的棘手問題,但也往往是業務預測一種很常見的資料集類型。

其中一種非常典型的使用案例是大型雲端服務供應商,我們為他們提供客戶轉換預測。它有一個慷慨的免費使用等級,我們能以極高的精確度告知誰有可能、又會在何時轉為付費使用等級。我們也和大型基礎結構公司合作,負責網路規劃、容量規劃。我們可以相當準確地預測網路流量的去向、哪裡流量大、哪裡流量小,以及公司需要在哪裡增加基礎結構。

我們最有意思的專案之一,也是我很感興趣的專案,是和一家大型電競經銷公司合作,為指導專業電玩遊戲的團隊建立預測工具。比方說,預測另一個團隊會怎麼實施內部分組比賽和內部訓練。或者針對《英雄聯盟》或《Dota 2》等多人線上戰鬥競技場遊戲的特定情況,什麼會是最佳戰術?這是一個很奇特的案例,但我保證它後勢看漲。

哪裡是企業展開機器學習的最佳去處?

超簡單:Cloud.mindsdb.com。我們有免費試用版,設定輕而易舉。無論您將資料存放在哪裡,只要插入 MindsDB,就可以開始運行預測:測試一下,瞭解如何運作。您可以立即試用,親身體驗。也可以加入我們的社群。我們在 MindsDB.com 提供一條連結,連到我們在 Slack 的社群和 GitHub,成員參與非常踴躍,您可以在那裡尋找支援和秘訣。

你們如何與 Intel® 合作,以及這個合作夥伴關係有何價值?

Intel 一直在多個方面大力支援。不用說也知道,它有一個卓越的硬體平台,我們也實施了他們的 OpenVINO 架構。我們以這種方式取得亮眼的效能提升。此外,Intel 也提供大量的技術,以及進入市場的機會。

最後有沒有什麼想法或關鍵重點是您要強調的?

親身體驗一下吧。MindsDB 其實蠻好玩的,這是我的個人感想。如果您決定試用、親身體驗,歡迎在我們的 Slack 社群留下意見回饋。我們一直都在努力改良產品,希望新人加入社群。

相關內容

如要進一步瞭解 AI 普及化,請收聽播客:與 MindsDB 一同簡化機器學習。 有關 MindsDB 的最新創新技術,請上Twitter @MindsDBLinkedIn 關注。

 

本文由Erin Noble編審

作者簡介

Christina Cardoza is an Editorial Director for insight.tech. Previously, she was the News Editor of the software development magazine SD Times and IT operations online publication ITOps Times. She received her bachelor’s degree in journalism from Stony Brook University, and has been writing about software development and technology throughout her entire career.

Profile Photo of Christina Cardoza