實時機器學習是指通過向機器學習模型提供實際數據來不斷改進機器學習模型。數據分析師/科學家或開發人員使用先前測試集的集合脫機創建模型。所有部門和行業都盡最大努力從機器學習中獲得所有可能的好處,無論是認知研究還是自動連續過程。考慮像Google Home這樣的智能家居助理或智能活動跟蹤設備,Alexa或Siri等語音識別系統,或自動駕駛汽車。這種人工技術已經進步了很多。
機器學習更多地分為其他類型,定義如下:
監督學習:您的模型預測正確的結果/標簽。大多數監督學習算法包括線性和邏輯回歸;
無監督學習:這種學習尋找數據集中預先存在標簽的模式;
強化學習:這種學習是指如何阻止或鼓勵某些行為;
由于數據漂移,機器學習模型的準確性會隨著時間的推移而下降。更新的頻率決定了模型的運行效率。雖然像谷歌、阿里巴巴和Facebook這樣的企業已經能夠使用實時管道來不斷改變生產中的幾種算法并提高他們的性能,但許多其他企業仍然手動更新他們的模型。在本文中,我們將討論機器學習當前持續學習狀態的動機、困難和潛在解決方案。
提供給機器學習模型的數據的價值通常是最重要的,因為它可以立即用于做出適當的決策。但是,用戶數據通常會被引入、轉換、存儲,并在機器學習模型使用之前長時間處于空閑狀態。
面向消費者的產品(如 Headspace 應用程序)通過使用消費者數據提供實時見解和判斷,可以顯著減少邊緣用戶反饋循環。這是因為用戶在片刻之前采取了可以完全集成到項目中的操作,為消費者提供更有意義、個性化定制和情境內容的建議。
然而,對于流或實時數據,孟菲斯平臺被廣泛使用,并提供機器學習算法的訓練。
實時機器學習通過提供準確的數據來不斷改進機器學習模型。
機器學習模型應用于流數據管道。此工作流在稱為流式機器學習的過程中以實時塊的形式吸收和修改供應商和目標之間的數據。
持續學習和機器學習預測延遲可以通過流式處理基礎結構得到改善。計算的一部分是小型數據集的批處理。
機器學習和數據分析技術適用于幫助大型流媒體系統的安全性。機器學習(也稱為模型訓練)根據所需的給定數據創建預測模型。
當基于知識的算法(如實時機器學習或深度神經網絡)得到正確使用時,它們受益最大。圖像識別 現實生活中常用且廣泛的機器學習應用是圖像識別。
為什么需要實時機器學習
由于需要事先有更多可用數據進行訓練,或者當數據必須響應不同的趨勢時,實時機器學習可能會有所幫助。例如,如果客戶的偏好和需求隨時間而變化,則不斷改進的基于機器學習的項目推薦器可以適應這些變化,而無需額外的再培訓。因此,通過識別新趨勢并進行調整以反映它們,實時機器學習可以為企業及其消費者提供更即時的準確性。
實時機器學習模型通常以這種方式部署到事件驅動架構中的生產環境,其中數據不斷注入到模型中。用于處理數據流的管道處理使數據準備好輸入模型所需的所有數據優化和操作。管道使用實時數據同時修改模型及其構建所基于的參考數據集。
在過去的幾年里,高性能技術在我們的日常生活中每天都在增加。人工智能的范圍及其各自的工作現在在行業中備受推崇。從Siri或Alexa等語音助手到高科技咖啡機,這些正在成為我們日常生活的重要組成部分,導致機器學習人工智能工作的積極發展。
實時數據流平臺
你可以收集、處理、評估大量數據,并通過實時數據流服務向實時應用和分析服務提供持續流式處理。通過利用安全、高度可訪問、強大且適應性強的集中管理服務,開發人員可以輕松創建實時應用程序。
實時數據流是從多個來源收集和吸收一系列數據,然后實時解釋這些數據以獲取信息。實時數據流允許用戶立即檢查和處理數據,而不必等待一段時間或更長時間才能獲得結果。
由Web應用程序用戶生成的日志文件,電子商務預付款,來自社交網絡的數據,來自金融平臺的交易信息,地理分析服務以及來自智能小工具的衛星跟蹤都是流數據的示例。
實時數據流有五個組件:
來源:數以千計的設備每秒生成數百萬個數據,如移動設備、Web 應用程序等。
流攝取:使您能夠掌握上述設備產生的數千條數據;
流存儲:將用于保存各種數據的內存
流處理
目標:為分析保密提供流數據以供進一步分析;
一個廣泛用于持續處理數據流的主要平臺是Memphis 。
Memphis?
Memphis 是開發實時系統的所有問題的新興解決方案。它聲稱是最快的解決方案,并且已被證明是最快的解決方案。它有助于比市場上任何平臺更快地構建流媒體平臺。Memphis 的主要好處是它是一個可公開訪問的開源平臺。該平臺是一個易于訪問的實時數據集成器。
特征
當前
它在幾分鐘內提供了一個完全優化的消息代理。
它提供了一個直觀的用戶界面,例如命令行界面。
它提供了數據級別的可觀測性。
它在傳輸過程中提供消息的路由。
來
它將使用更多的 SDK。
它將提供準備好的連接和分析工具。
它將提供內聯處理。
使用Memphis 的優點
Memphis 的平臺能夠構建下一代應用程序,這些應用程序需要大量流和增強數據、當前協議、零操作、快速開發、大幅降低成本以及面向數據的程序員和數據工程師的更少開發時間。孟菲斯的主要重點是:
性能 – 提高緩存利用率;
彈性 – 提供 99.95% 的正常運行時間;
可觀察性 – 正確的觀察,減少故障排除時間;
開發人員體驗 – 內聯處理、模式管理、模塊化和頂部;
實時機器學習場景
對于商業研究人工智能,計算機系統可以使用機器學習來使用所有客戶數據。它遵循已經編程的必需指令,同時仍會根據不同的情況進行更改或調整。顯示以前無法執行行為的數據會導致算法發生變化。
如果數字助理能夠了解情況,它可能會閱讀電子郵件并檢索重要信息。這種理解伴隨著將未來客戶端行為作為內置功能預測的能力。因此,您可能對消費者的需求更加積極和靈活。
深度學習屬于機器學習。神經網絡網絡有三層。可以使用單層神經網絡進行粗略估計。精度和性能都可以通過添加更多層來提高。機器學習在各種不同的區塊和業務中都有幫助,并且可以隨著時間的推移更有效地向前發展。以下是機器學習的實際應用的五個實例。
模式/圖像識別
模式或圖像識別是機器學習在物理世界中的常見且廣泛使用的應用。根據深色或淺色或黑白或彩色圖像中像素的嚴重性,它可以將項目識別為數碼照片。它現實生活中的例子是診斷X射線是否患有癌癥。
屬于圖像識別類別的方法集合,圖像識別是人工智能的一個分支,代表圖像的檢測和解釋,以實現特定活動的自動化。它是一種可以識別圖像中的物體、人物、地點和其他各個方面并通過分析得出結論的方法。
語音識別
與文本交談是機器學習的一種能力。文本文件可以使用特定的計算機軟件生成,該軟件可以轉換語音和錄音或錄制的語音。語音根據時頻帶的強度進一步表征為片段。現實生活中的單詞示例包括語音撥號和語音搜索。
麥克風必須產生類似于波的電信號,然后任何系統才能理解語音。然后,該信號由計算機或計算機網絡(例如設備的聲卡)轉換為二進制代碼。語音識別軟件檢查數字數據以識別不同的元音,這是語音的基本組成部分。這些單詞是通過重新組合輔音來創建的。但是,由于如此多的單詞具有相似的聲音,因此算法必須根據情況來選擇正確的術語。
醫療診斷
機器學習可以幫助進行醫學診斷。許多臨床醫生使用語音軟件來識別疾病集群。它的真實例子包括分析體液。
預測分析
可用數據可以通過機器學習分為研究人員制定的法規進一步定義的類別。研究人員可以在分類完成后確定缺陷的可能性。一個現實生活中的例子包括檢查交易是有效的還是欺詐的。
萃取
從非結構化數據中,機器學習可以檢索特定數據。企業收集無數的客戶數據。為預測數據分析工具自動標記數據集的過程使用機器學習算法。現實生活中的例子包括幫助醫生治療問題并輕松診斷它們。此提取由我們的平臺孟菲斯執行,這使得它對我們更有幫助,因為它通過使用云提供了一個更現實和全面的系統。
在線預測
AI 平臺預測旨在盡可能快地使用專用模型處理您的數據。該服務從您那里接收少量數據并響應您的預測。
由于維護日志的費用,默認情況下,自動網絡預測工具不會提供有關查詢的記錄信息。每秒處理多個請求的在線預測可能會生成大量由云監控收費的日志。
當您希望在低延遲方案中將每個示例與其他實例分開進行預測時,將使用在線預測上下文。
例如,預測可用于快速確定到期金額是否最有可能是欺詐性的。
雖然我認為持續學習的廣泛采用還需要幾十年的時間,但我觀察到企業在轉向在線預測方面付出了相當大的努力。我們將描述采用批次特征的簡單在線預測系統的要求,通常有助于會話中適應,從批次預測系統開始。稍后,我們將討論開發一種同時使用批處理和流式處理功能的在線預測工具。
要求
對于此階段,您必須執行以下操作:
將模型從批量預測切換到基于會話的預測。
在在線預測工具中包含會話數據。
您無需為使用在線預測時未查看您網站的用戶創建聯想查詢。例如,在 2020 年,Grub Hub 報告了 31 萬月活躍消費者和 620,000 個平均訂單。想象一下,每天只有 2% 的消費者登錄您的應用程序。
如果您每天為每個客戶生成預測,那么生成 98% 的在線預測所需的計算能力將毫無用處。
持續學習
持續學習(也稱為增量學習)背后的想法是按時間順序學習許多多個作業的模型,而不會忽略從它們之前的任務中獲得的信息,即使在訓練新任務時不再提供舊任務的統計數據。
人們在聽到“持續學習”時,會立即想到頻繁的模型更新,比如每五分鐘更新一次。許多人認為,大多數企業不需要定期進行更改,因為:
為了理解重新訓練的時間線,他們需要流量。
他們的模型不會退化得那么快。
我同意他們的看法。然而,持續學習并不是關于模型重新訓練頻率的頻率;這是關于它是如何重新訓練的。
大多數企業使用無狀態再訓練,其中每次模型都是從頭開始編程的。持續學習需要啟用有狀態訓練,其中模型通過新的輸入不斷學習。持續學習是我們的目標,也是我們認為許多企業最終會遵循的目標。
當邊緣部署和持續學習相結合時,達到峰值。Envision可以提供帶有新小工具(手機,可穿戴手表等)的基本模型,并讓該模型自動跟蹤并根據周圍環境進行自定義。無需在設備和云之間不斷傳輸數據,也沒有客戶端-服務器成本。
結論
實時機器學習的主要問題是設備。平臺團隊和計算機分析或機器學習團隊必須協作才能找到解決方案。持續學習和在線預測需要一個發達的流媒體平臺。繼續學習的培訓部分可以分批完成,但其在線評估部分需要流式傳輸。流媒體既困難又昂貴,這讓許多開發人員感到擔憂。雖然三年前是準確的,但流媒體技術已經有了很大的進步。許多知名公司現在正在提供并越來越多地提出一種解決方案,以簡化企業向流媒體的過渡。孟菲斯在流媒體方面發揮著重要作用,借助其基于云的系統使其效率更高。
如今,許多開發人員正在進行民意調查,以了解有關實時機器學習使用和行業障礙的更多信息。您只需幾分鐘即可與他們分享您的意見。結果在編譯和匯總后將通知用戶。
審核編輯:郭婷
評論
查看更多