關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫 - 全文

本文描述了猿輔導開源分布式機器學習庫ytk-learn及分布式通信庫ytk-mp4j的相關內容，可實現在多應用場景中使用。ytk-learn 是基于Java的高效分布式機器學習庫，簡單易用，文檔詳細，只需要用戶安裝Java 8運行時環境即可，而且所有模型都有可運行的demo。

猿輔導公司開源了兩個機器學習項目——ytk-learn， ytk-mp4j，其中 ytk-mp4j 是一個高效的分布式通信庫，基于該通信庫我們實現了 ytk-learn 分布式機器學習庫，該機器學習庫目前在猿輔導很多應用場景中使用，比如，自適應學習、學生高考分預測、數據挖掘、課程推薦等。

ytk-learn分布式機器學習庫

項目背景

LR（Logistic Regression）， GBDT（Gradient Boosting Decision Tree）， FM（Factorization Machines）， FFM（Field-aware Factorization Machines）模型是廣告點擊率預測和推薦系統中廣泛使用的模型，但是到目前為止幾乎沒有一個高效的機器學習開源項目集這幾種常用模型于一身，而且很多機器學習開源項目只能在特定計算平臺下使用，最重要的是不能高效的整合到線上生產環境中。ytk-learn 就是解決以上問題而產生的。

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

圖1 ytk-learn 特性概略

項目簡介

ytk-learn 是基于Java的高效分布式機器學習庫，實現大量的主流傳統機器學習模型（GBDT， LR， FM， FFM等）和loss函數，支持單機多線程、多機集群及分布式計算環境。

其中 GBDT/GBRT 的實現借鑒吸收了 XGBoost 和 LightGBM 的大部分有用特性，支持特征并行和數據并行，支持傳統的精確算法和直方圖近似算法，支持 level-wise 或者 leaf-wise 的建樹方式，而且還實現了分布式帶權分位數近似。在單機數據并行的場景中訓練速度跟 XGBoost 相當，在非$2^n$臺機器的分布式場景中比 LightGBM 速度更快，更穩定。

傳統的 GBDT/GBRT 在含有大量 Categorical 特征的場景中無法使用，我們實現了多種適用于大量 Categorical特征的 GBST（Gradient Boosting Soft Tree）模型，在猿輔導的點擊率預測和推薦場景中效果明顯好于LR、FM、FFM等模型。

ytk-learn 實現了改進的 Hoag（Hyperparameter optimization with approximate gradient， ICML2016）算法，能夠自動高效的進行超參數搜索。當目標函數是凸函數時，hoag 能快速得到最優超參數（kaggle 比賽利器），效率明顯高于傳統的網格超參數搜索算法（grid search），而且在非凸目標函數場景中也適用。

其他特性：

1. 簡單易用，文檔詳細，只需要用戶安裝Java 8運行時環境即可，而且所有模型都有可運行的demo

2. 支持主流的操作系統：Linux，Windows，Mac OS，僅需安裝Java8運行環境即可使用

3. 支持單機多線程，多機集群及分布式環境（Hadoop，Spark），相比Hadoop Mahout， Spark MLlib效率高很多

4. 提供簡單易用的在線預測代碼，可以方便整合到線上生成環境

5. 支持多種目標函數和評估指標，支持L1，L2，L1+L2正則

6. 樹模型支持樣本采樣，特征采樣，提供初始預估值的訓練

7. 支持特征預處理（歸一化，縮放），特征哈希，特征過濾，基于樣本標簽采樣

8. 提供了讀取數據時進行高效數據處理的python腳本

9. 訓練模型支持checkpoint，繼續訓練

10. LR 支持 Laplace 近似，方便做 Exploitation&Exploration

11. 基于猿輔導的 ytk-mp4j 通信庫，分布式訓練效率非常高

ytk-mp4j 分布式機器學習通信庫
?

項目背景

目前可以用于分布式機器學習的通信主要基于MPI和RPC，其中MPI是分布式高性能計算的標配，雖然效率非常高，但是對于開發分布式機器學習任務來說有很多缺點：開發難度大、數據支持太底層、只能用C/C++， Fortran編寫等等；RPC 方式來實現類似 allreduce 這種操作，在特征維度特別高的場景，通信效率太低。所以我們開發了一套易用且高效的機器學習分布式通信庫。

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

圖2 ytk-mp4j 特性概略

項目簡介

ytk-mp4j 是基于Java的高效分布式機器學習通信庫，實現了類似 MPI Collective 通信中的大部分操作，包含gather， scatter， allgather， reduce-scatter， broadcast， reduce， allreduce，使用 ytk-mp4j 可以快速地把串行機器學習程序改造成支持多線程和多進程，ytk-learn 中所有涉及到分布式通信操作都是基于 ytk-mp4j 實現（表1中給出了部分例子）。

相比于MPI， ytk-mp4j 擴展實現了一些非常實用的特性：

1. 所有的通信操作都是基于最優算法實現［1，2］，性能非常高，同時支持多線程，多進程。同樣的功能，在C/C++ 環境中，可能需要結合 MPI 和 OpenMP 才能實現

2. 不僅支持基本的數據類型（double， float， long， int， short， byte），而且還支持Java String及任意普通Java對象（Java 對象只需要實現 Kryo的 Serializer 接口）

3. 不僅支持傳統數組類型的 Collective 通信，而且還支持Java Map數據類型，使用Map數據類型，用戶可以實現非常復雜的通信操作（例如：集合求交、求并，鏈表的連接等操作）

4. 支持數據壓縮傳輸，在網絡資源很緊張的情況下，可以節約大量的帶寬

5. 純Java代碼實現，可以無縫集成到 Hadoop， Spark 等分布式計算平臺，構建自己的分布式機器學習系統

6. 使用 Java的SDP（Sockets Direct Protocol）可以實現高效的RDMA（Remote Direct Memory Access）

表1 ytk-mp4j在ytk-learn中的使用

ytk-mp4j 操作ytk-learn 中使用場景

allreduceLoss 求和，梯度求和，Hessian 求和，計算分位數，計算平均值，

計算評估指標（AUC， Confusion Matrix…），統計樣本數量、

特征出現次數等等

reduce-scatterGBDT 高效梯度求和

allgatherL-BFGS 中計算Hv，GBDT 同步梯度

allreduce 操作是分布式機器學習中使用最多的通信操作，它對機群中所有的節點對應的數據進行歸約操作，然后再分發給各個節點。下面給出了 ytk-mp4j 在多進程、多進程、數組，Map 下的 allreduce （歸約操作為求和）示意圖：

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

性能測試

表2給出了 ytk-mp4j 實現的Collective操作時間復雜度，其中 ?是網絡連接延遲，是傳輸1個字節需要的時間，是需要傳輸的字節數量，是進行1字節數據歸約（reduction）操作需要的時間。可以看出，隨著機器數量的增加，所有操作數據傳輸的時間是幾乎不會增加的，只有連接和歸約操作的時間會隨機器數量增加，但在大數據通信時，連接和歸約的時間占比很小。這個時間復雜度特性非常重要，它使得在特征維度、樣本數量超過一定閾值的分布式機器學習訓練任務中，訓練加速比與機器數量接近線性關系。

表2 ytk-mp4j 實現的 Collective 操作時間復雜度

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

下圖是測試在 1Gigabit Ethernet 網絡下，10億維 double 數組，各種 Collective 通信操作在不同的機器數量下的通信性能（時間單位： ms），從圖中可以看出 ytk-mp4j 中的7種 Collective 操作的通信時間與機器數量的關系與理論值完全符合。

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫

閱讀全文

上一頁 1 2全文

本文導航

第 1 頁：關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫
第 2 頁：ytk-mp4j 分布式機器學習通信庫

機器學習(130423) 機器學習(130423)

Python機器學習庫談Scikit-learn技術

Scikit-learn API內置了各種toy和real-world數據集[1]。這些可以便捷地通過一行代碼訪問，如果你正在學習或只是想快速嘗試新功能，這會非常有用。

2020-08-27 17:34:58

2842

25個機器學習面試題，你都會嗎？

問題都沒有給出明確的答案，但都有一定的提示。讀者也可以在留言中嘗試。許多數據科學家主要是從一個數據從業者的角度來研究機器學習（ML）。因此，關于機器學習，我們應該盡可能多地把注意力放在新的程序包、框架、技術

2018-09-29 09:39:54

關于機器學習的日志

機器學習日志

2020-07-08 12:54:25

分布式系統的優勢是什么？

當討論分布式系統時，我們面臨許多以下這些形容詞所描述的同類型： 分布式的、刪絡的、并行的、并發的和分散的。分布式處理是一個相對較新的領域，所以還沒有‘致的定義。與順序計算相比、并行的、并發的和分布式的計算包括多個PE問的集體協同動作。這些術語在范圍一卜相互覆蓋，有時也交換使用。　

2020-03-31 09:01:18

分布式軟件系統

降到最低。負載在各處理機之間分擔，可以避免臨界瓶頸。 4、當現有機構中已存在幾個數據庫系統，而且實現全局應用的必要性增加時，就可以由這些數據庫自下而上構成分布式數據庫系統。 5、相等規模的分布式數據庫

2009-07-22 14:53:12

分布式數據庫有什么優缺點？

分布式數據庫系統（DDBS）是數據庫技術和網絡技術兩者相互滲透和有機結合的結果。涉及數據庫基本理論和網絡通信理論。分布式數據庫由一組數據組成，這些數據在物理上分布在計算機網絡的不同節點上，邏輯上是屬于同一個系統。

2019-09-24 09:13:39

機器學習與軟件平臺的融合

本文將探討機器學習與軟件平臺的融合。

2021-01-28 06:36:35

機器學習入門篇：一個完整的機器學習項目

機器學習項目入門篇：一個完整的機器學習項目

2020-05-11 14:47:49

機器學習如何賦能風力發電？

雷鋒網 AI 科技評論按：谷歌 DeepMind 博客昨日更新一篇關于機器學習如何賦能風力發電的文章，詳細介紹了谷歌全球可再生能源項目中針對風電場的機器學習實驗結果，雷鋒網(公眾號：雷鋒網) AI

2021-07-12 06:09:47

機器學習的創新/開發和應用能力

機器學習的未來在工業領域采用機器學習機器學習和大數據工業人工智能生態系統

2020-12-16 07:47:35

機器學習的基礎內容

文章目錄前言一、pandas是什么？二、使用步驟1.引入庫2.讀入數據總結前言提示：這里可以添加本文要記錄的大概內容：例如：隨著人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器

2021-08-20 08:07:49

機器學習的基礎內容

系列文章目錄提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可參考右邊的幫助

2022-02-09 06:47:38

機器學習的基礎內容介紹

2022-01-12 08:12:18

機器學習的基礎內容大合集

，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文章正文內容，下面案例可供參考一、位帶操作二、使用步驟1.引入庫代碼如下（示例）：import numpy as npimport pandas as pdimport

2022-01-07 06:35:58

機器學習的基礎內容匯總

人工智能的不斷發展，機器學習這門技術也越來越重要，很多人都開啟了學習機器學習，本文就介紹了機器學習的基礎內容。提示：以下是本篇文章正文內容，下面案例可供參考一、pandas是什么？示例：pandas 是基于NumPy 的一種工具，該工具是為了解決數據分析任務而創建的。二、使用步驟1.引入庫代碼

2022-02-28 06:12:58

機器學習的未來

機器學習的未來在工業領域采用機器學習機器學習和大數據

2021-01-27 06:02:18

機器學習的相關資料下載

https://www.toutiao.com/a6712245202418926083/機器學習最重要的應用之一是嵌入式機器視覺領域，各類系統正在從視覺使能系統演進為視覺引導自動化系統。嵌入式視覺

2021-12-14 07:03:28

機器學習的算法應用

關于機器學習的相關算法。正版資源，免費看的。

2017-08-24 22:14:36

機器學習簡介與經典機器學習算法人才培養

。遷移效果的可視化，利用機器學習庫scikit-learn中的t-SNE對遷移過后的高維數據進行可視化。十、實驗實操之圖片與視頻風格遷移實踐掌握基于生成對抗網絡的風格遷移技術。圖像/視頻風格遷移網絡

2022-04-28 18:56:07

機器學習算法如何用于制造無人駕駛汽車？

機器學習算法如何用于制造無人駕駛汽車

2021-03-18 06:27:18

機器人技術和機器學習

機器人技術和機器學習正成為嵌入式系統硬件和軟件供應商的下一個重大事件。嵌入式系統可以通過網絡連接和物聯網（IoT）來傳遞信息、共享資源。無論是智能，低能耗，邊緣設備，中間網關還是計算節點，都需要

2021-12-20 06:03:10

機器人工程師學習計劃

如何定義機器人？機器人工程師學習計劃分享

2021-12-20 06:11:57

Deeplearningai結構化機器學習項目

Deeplearningai 結構化機器學習項目 Week2 6-10

2020-05-18 15:12:43

Labview機器學習

請問Labview機器學習工具箱里有SVM，BP等工具，如果自己用SVR做了一個回歸，可以用Labview實現嗎？這方面的小白，跟各位老師請教一下

2019-10-28 11:11:09

MATLAB圖像處理及機器學習入門交流

深度學習交流大群： 372526178 （課件資料共享，加群備注楊春嬌邀請）MATLAB與機器學習大群: 626611806 （加群備注楊春嬌邀請）

2018-09-12 10:44:56

Microchip的機器學習開發工具有哪些

Microchip的機器學習開發工具

2020-11-25 07:58:55

Python機器學習常用庫

歡迎的編程語言！人工智能是當前最熱門話題之一，機器學習技術是人工智能實現必備技能，Python編程語言含有最有用的機器學習工具和庫，以下是Python開發工程師必知的十大機器學習庫！一

2018-03-26 16:29:41

Python做機器學習的重要庫

開發用 Python 做機器學習不得不收藏的重要庫

2020-06-10 09:24:55

TensorFlow的特點和基本的操作方式

Tensorflow是Google開源的深度學習框架，來自于Google Brain研究項目，在Google第一代分布式機器學習框架DistBelief的基礎上發展起來。Tensorflow于

2020-11-23 09:56:04

iMX8M Plus將機器學習庫添加到Yocto精簡固件映像？

我想知道conf/local.conf有什么必要的修改，以便添加機器學習庫和其他東西，以便在板上部署 AI 功能而不需要 bitbaking imx-image-full，請問？換句話說，我希望固件

2023-06-07 06:16:07

【學習打卡】OpenHarmony的分布式任務調度

節點都有自己的系統子集。4.分層：例如，三層架構包括一個用于調度軟件的節點、一個用于執行工作的節點，以及一個用于數據庫訪問的節點。OpenHarmony的分布式任務調度支持對跨設備的應用進行遠程啟動

2022-07-18 17:06:45

【學習打卡】OpenHarmony的分布式數據管理介紹

中，精心設計的架構為數據庫和其他數據平臺提供了一個模型，在該模型上將部署特定技術以適應各個應用程序。分布式數據管理作為OpenHarmony系統的模塊之一，它建立在分布式軟總線的基礎上，最突出的特點

2022-07-15 15:49:32

【Firefly RK3399試用申請】基于SimpleCV的機器學習

項目名稱：基于SimpleCV的機器學習試用計劃：本次電子發燒友提供的試用開發板Firefly-RK3399采用了六核64位“服務器級”處理器Rockchip RK3399，擁有2GB/4

2017-06-05 16:15:29

【KittenBot機器人試用申請】KittenBot繪圖避障機器人學習課程

項目名稱：KittenBot繪圖避障機器人學習課程試用計劃：1、申請理由：本人為一名高中老師，業余喜歡學習arduino，希望借此機會培養學生的編程能力與動手能力2、項目名稱：KittenBot繪圖

2017-07-07 18:05:19

【下載】《機器學習》+《機器學習實戰》

讀者, 本書附錄給出了一些相關數學基礎知識簡介.目錄：全書共16 章，大致分為3 個部分：第1 部分（第1～3 章）介紹機器學習的基礎知識；第2 部分（第4～10 章）討論一些經典而常用的機器學習

2017-06-01 15:49:24

【木棉花】分布式數據庫

前言繼上一篇輕量級偏好數據庫的學習，為了讓大伙更好的了解學習數據庫的類型，我今天就推出分布式數據庫的學習，如果還不清楚輕量級偏好數據庫的童鞋，建議查看我的上一篇學習筆記：【木棉花】：輕量級偏好數據庫

2021-09-05 10:43:09

【木棉花】學習筆記--分布式數字華容道（中）

本帖最后由 jf_62992433 于 2021-9-22 14:20 編輯前言嘿嘿，我又來啦。看過我的學習筆記–分布式數字華容道（上）的同學，有沒有感覺到自己寫一個游戲不再是那么

2021-09-22 14:20:57

【木棉花】學習筆記--分布式遷移

前言鴻蒙開發相對于安卓開發最大的優勢就是鴻蒙開發擁有分布式能力，那我的前兩篇學習筆記中的分布式數據庫就涉及到分布式能力，還不了解什么是分布式能力的同學就可以去官網上了解一下，這里就不多加贅述了，或者

2021-09-05 10:49:45

【木棉花】學習筆記--分布式遷移+回遷

前言我又來啦，相信那些不了解分布式的童鞋，學習過我前幾篇學習筆記了之后是不是會更加理解了一些呢。當然了，我這星期要整理到學習筆記中的也是和分布式能力相關的一個學習案例，那就是在上一期分布式遷移

2021-09-07 20:09:13

人工智能和機器學習的前世今生

摘要：閱讀本文以了解更多關于人工智能、機器學習和深度學習方面的知識，以及它們對商業化意味著什么。如果正確的利用模式識別進行商業預測和決策，那么會為企業帶來巨大的利益。機器學習（ML）研究這些模式

2018-08-27 10:16:55

什么是機器學習? 機器學習基礎入門

本文旨在為硬件和嵌入式工程師提供機器學習(ML)的背景，它是什么，它是如何工作的，它為什么重要，以及 TinyML 是如何適應的機器學習是一個始終存在并經常被誤解的技術概念。數十年來，使用復雜

2022-06-21 11:06:37

什么是TinyML？微型機器學習

、基于微控制器的嵌入式設備可以實時響應地執行機器學習任務。這種努力是非常多學科的，需要從硬件、軟件、數據科學和機器學習等領域進行優化和最大化。這個領域近年來在很大程度上獲得了普及，因為其背后的硬件

2022-04-12 10:20:35

介紹機器學習的基礎內容

嵌入式系統之硬件總復習提示：這里可以添加系列文章的所有文章的目錄，目錄需要自己手動添加例如：第一章 Python 機器學習入門之pandas的使用提示：寫完文章后，目錄可以自動生成，如何生成可

2021-12-16 06:27:44

介紹機器學習的基礎內容

2021-08-13 07:39:46

使用 Python 開始機器學習

StackOverFlow上找到關于很多問題詳細解答（學習基石）。再次，一個強大的社區帶來的副產品就是大量有用程序庫（Python內部自帶的和第三方軟件），基本上可以解決你所有的問題（包括機器學習）。但我

2018-12-11 18:37:19

分析一個不錯的機器學習項目簡歷收集冊

2021-09-26 06:03:10

十大Python機器學習常用庫

語言，由于實現了動態計算圖范式， PyTorch 已經成為眾多研究人員的首選框架之一，可以計算梯度，而且非常快，可擴展性強。3. Caffe2Caffe2 支持分布式訓練、部署(即使是在移動平臺

2018-05-02 16:37:14

如何學習機器學習

【吳恩達機器學習】學習筆記13（Normal Equation& 與梯度下降比較）

2020-04-26 11:05:59

如何使用Arm CMSIS-DSP實現經典機器學習庫

通常，當開發人員談論機器學習(ML)時，他們指的是神經網絡(nn)。神經網絡的巨大優勢在于，你不需要成為一個領域專家，而且可以迅速找到一個可行的解決方案。神經網絡的缺點是它們通常需要無數的記憶

2023-08-02 07:12:59

如何在移動和嵌入式設備上部署機器學習模型

機器學習部署嵌入式介紹 (Introduction)Thanks to libraries such as Pandas, scikit-learn, and Matplotlib

2021-12-14 08:30:40

如何完成機器學習的項目流程和數據清洗

機器學習：完整機器學習項目流程，數據清洗

2020-04-26 09:31:46

如果只是應用機器學習，而不是研究，需要哪些知識

如果只是應用機器學習，而不是研究，需要哪些知識？還用深入學習數字么

2019-08-30 14:51:02

嵌入式結合機器學習文章分享

嵌入式結合機器學習方向的兩篇比較好的文章，記錄一下。1

2021-12-20 06:56:45

常用python機器學習庫盤點

用的機器學習庫有哪些呢？1.NLTK自然語言處理里面赫赫有名的就是NLTK全稱叫自然語言工具包(Natural Language Tookit),里面包含了大量的函數模塊,可以獲取語料庫，字符串的處理

2018-05-10 15:20:21

微型機器學習

人工智能 AI 正在加快速度從云端走向邊緣，進入到越來越小的物聯網設備中。而這些物聯網設備往往體積很小，面臨著許多挑戰，例如功耗、延時以及精度等問題，傳統的機器學習模型無法滿足要求，那么微型機器學習又如何呢？

2021-09-15 09:23:12

最值得學習的機器學習編程語言

如果你對人工智能和機器學習感興趣，而且正在積極地規劃著自己的程序員職業生涯，那么你肯定面臨著一個問題：你應該學習哪些編程語言，才能真正了解并掌握 AI 和機器學習？可供選擇的語言很多，你需要通過戰略

2021-03-02 06:22:38

物聯網防火墻與機器學習技術解析

物聯網防火墻與機器學習技術

2021-02-25 06:05:58

江智小暖心機器人

江智小暖心機器人可應用于少兒學習（避免網上學習輔導不自覺游覽其它內容）老人陪伴 x協助老板商務服務等

2022-04-16 07:38:34

[11.1.1]--大規模數據的分布式機器學習平臺（主講人：褚葳）_clip001

分布式機器學習大數據

jf_75936199發布于 2023-03-07 00:36:44

[11.1.1]--大規模數據的分布式機器學習平臺（主講人：褚葳）_clip002

分布式機器學習大數據

jf_75936199發布于 2023-03-07 00:37:26

Python機器學習庫和深度學習庫總結

我們在Github上的貢獻者和提交者之中檢查了用Python語言進行機器學習的開源項目，并挑選出最受歡迎和最活躍的項目。 1. Scikit-learn（重點推薦） Scikit-learn

2017-11-10 14:49:02

727

11個機器學習開源項目

隨著機器學習越來越受到開發者關注，出現了很多機器學習的開源項目，在本文列舉的11個機器學習開源項目中，無論你是Java愛好者還是Python狂人，在這里你都可以找到自己想要的機器學習開源項目。

2017-02-14 14:25:33

2715

Spark機器學習庫的各種機器學習算法

本文將簡要介紹Spark機器學習庫（Spark MLlibs APIs）的各種機器學習算法，主要包括：統計算法、分類算法、聚類算法和協同過濾算法，以及各種算法的應用。你不是一個數據科學家。根據

2017-09-28 16:44:43

分布式機器學習平臺的實現方法

本文選自紐約州里大學計算機系教授Murat和學生的論文，主要介紹了分布式機器學習平臺的實現方法并提出了未來的研究方向。論文地址：www.cse.buffalo.edu/~demirbas

2017-09-29 12:43:46

大規模分布式機器學習系統分析

針對構建大規模機器學習系統在可擴展性、算法收斂性能、運行效率等方面面臨的問題，分析了大規模樣本、模型和網絡通信給機器學習系統帶來的挑戰和現有系統的應對方案。以隱含狄利克雷分布（ LDA）模型

2017-12-05 19:02:42

Python機器學習開源項目分析過程中的見解和趨勢

開源是技術創新和快速發展的核心。這篇文章向你展示Python機器學習開源項目以及在分析過程中發現的非常有趣的見解和趨勢。我們分析了GitHub上的前20名Python機器學習項目，發現scikit-Learn，PyLearn2和NuPic是貢獻最積極的項目。讓我們一起在Github上探索這些流行的項目！

2017-12-16 08:56:13

644

自學機器學習的誤區和陷阱

Sklearn(scikit-learn: machine learning in Python-http://scikit-learn.org/stable/)是Python上最流行的機器學習

2018-05-14 15:54:32

4514

什么是機器學習？機器學習能解決什么問題？（案例分析）

隨著大數據時代的到來，機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界，機器學習都是一個炙手可熱的方向，但是學術界和工業界對機器學習的研究各有側重，學術界側重于對機器學習

2018-05-18 13:13:00

15976

關于機器學習的前世今生和怎么用機器學習的方法去解決問題

初看的話，會覺得機器學習和人工智能，數據挖掘講的東西很像，實際他們之間的關系可以概括為：機器學習是人工智能的一個子方向機器學習是數據挖掘的一種實現方式

2018-05-18 08:37:00

1904

如何開始接觸機器學習_機器學習入門方法盤點

機器學習入門方法一說到機器學習，我被問得最多的問題是：給那些開始學習機器學習的人的最好的建議是什么？

2018-05-20 07:10:00

3755

Apache Spark上的分布式機器學習的介紹

Apache Spark上的分布式機器學習

2018-11-05 06:31:00

2670

精選10本機器學習暢銷書,玩轉機器學習

人工智能和大數據時代，分布式機器學習解決了大量最具挑戰性的問題，《分布式機器學習：算法、理論與實踐》全面分析了分布式機器學習的現狀，深入分析其中核心問題，討論該領域的未來發展方向。

2018-12-10 09:36:38

4246

Uber一個跨多臺機器的分布式深度學習訓練框架引入開源項目LF深度學習基金會

Uber上個月加入了Linux基金會，并加入了AT&T和諾基亞等其他科技公司的行列，支持LF深度學習基金會的開源項目。LF深度學習基金會成立于3月，旨在支持針對深度學習和機器學習的開源項目，是Linux基金會的一部分。

2018-12-19 15:50:54

4883

機器學習如何賦能風力發電?

谷歌 DeepMind 博客昨日更新一篇關于機器學習如何賦能風力發電的文章，詳細介紹了谷歌全球可再生能源項目

2019-03-02 08:54:00

3194

關于機器學習的一點

以機器學習中的監督學習為例，監督學習是從一組帶有標記的數據中學習。

2019-07-04 15:31:49

303

關于機器學習你了解多少

機器學習中的模型也被叫做假設（hypothesis， h），這個h就是我們透過現象想要尋找的“本質”。

2019-07-08 10:00:58

367

機器學習模型在生產中退化的原因

由于意外的機器學習模型退化導致了幾個機器學習項目的失敗，我想分享一下我在機器學習模型退化方面的經驗。實際上，有很多關于模型創建和開發階段的宣傳，而不是模型維護。

2020-05-04 12:11:00

1615

機器學習該怎么學習

網上關于機器學習的文章，視頻不計其數，本來寫這么一篇東西，我自己也覺得有點多余，但是我還真沒找到一個能幫助像我這樣零基礎的人，快速接觸和上手機器學習的文章。這篇文章不能讓你深入學習和掌握機器學習

2020-05-12 08:54:38

811

機器學習在線選擇模型和參數，一鍵生成demo

連機器學習的代碼，也可以套模（tou）版（lan）了。現在，有一個Web應用程序，可以生成用于機器學習的模板代碼（demo），目前支持PyTorch和scikit-learn。同時，對于初學者

2021-01-02 09:26:00

1483

基于Python的scikit-learn包實現機器學習

基于Python的scikit-learn包實現機器學習。

2021-03-26 09:42:03

面向聯邦學習的分布式與隱私安全性綜述

聯邦茡習是一種保證數據隱私安全的分布式機器學習方案。與傳統的機器學習的可解釋性問題類似，如何對聯邦學習進行解釋是一個新的挑戰。文中面向聯邦學習方法的分布式與隱私安全性的特性，探討聯邦學習的可視化框架

2021-04-29 11:13:59

輕量級分布式機器學習系統及算法

為滿足大規模機器學習系統高定制化、低耦合與低資源消耗的需求，設計并實現一個輕量級分布式機器學習系統。采用模塊化分層設計并移植多種主流的機器學習與深度學習算法，同時提出參數服務器與動態Ring-

2021-05-11 14:51:09

機器學習是什么，機器學習的定義

機器學習是一門能夠讓編程計算機從數據中學習的計算機科學（和藝術）。

2022-02-03 09:18:00

7634

Scikit-learn機器學習庫的概念及工作原理

作為一個適用于 Python 編程語言的機器學習 (ML) 庫，Scikit-learn 擁有大量算法，可供程序員和數據科學家在機器學習模型中輕松部署。

2022-09-30 11:00:21

1005

21 句話入門機器學習

【編者按】這是一篇關于機器學習工具包Scikit-learn的入門級讀物。對于程序員來說，機器學習的重要性毋庸贅言。也許你還沒有開始，也許曾經失敗過，都沒有關系，你將在這里找到或者重拾自信。只要粗通

2023-07-25 11:30:02

231

21句話入門機器學習

2023-07-31 23:44:28

388

機器學習和深度學習的區別

機器學習和深度學習的區別隨著人工智能技術的不斷發展，機器學習和深度學習已經成為大家熟知的兩個術語。雖然它們都屬于人工智能技術的研究領域，但它們之間有很大的差異。本文將詳細介紹機器學習和深度學習

2023-08-17 16:11:40

2734

機器學習算法匯總機器學習算法分類機器學習算法模型

機器學習算法匯總機器學習算法分類機器學習算法模型機器學習是人工智能的分支之一，它通過分析和識別數據模式，學習從中提取規律，并用于未來的決策和預測。在機器學習中，算法是最基本的組成部分之一。算法

2023-08-17 16:11:48

632

機器學習算法總結機器學習算法是什么機器學習算法優缺點

機器學習算法總結機器學習算法是什么?機器學習算法優缺點? 機器學習算法總結機器學習算法是一種能夠從數據中自動學習的算法。它能夠從訓練數據中學習特征，進而對未知數據進行分類、回歸、聚類等任務。通過

2023-08-17 16:11:50

939

機器學習算法入門機器學習算法介紹機器學習算法對比

機器學習算法入門機器學習算法介紹機器學習算法對比機器學習算法入門、介紹和對比隨著機器學習的普及，越來越多的人想要了解和學習機器學習算法。在這篇文章中，我們將會簡單介紹機器學習算法的基本概念

2023-08-17 16:27:15

569

機器學習是什么意思？機器學習屬于什么分支？機器學習有什么用處？

機器學習是什么意思？機器學習屬于什么分支？機器學習是什么有什么用處？機器學習是指讓計算機通過經驗來不斷優化和改進自身的算法和模型的過程。因此，機器學習可以被理解為是一種從數據中自動獲取規律和知識

2023-08-17 16:30:04

1148

機器學習theta是什么？機器學習tpe是什么？

機器學習theta是什么？機器學習tpe是什么？機器學習是近年來蓬勃發展的一個領域，其相關技術和理論受到了廣泛的關注和應用。在機器學習中，theta和tpe是兩個非常重要的概念。首先，我們來了

2023-08-17 16:30:08

1023

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？

機器學習有哪些算法？機器學習分類算法有哪些？機器學習預判有哪些算法？機器學習是一種人工智能技術，通過對數據的分析和學習，為計算機提供智能決策。機器學習算法是實現機器學習的基礎。常見的機器學習算法

2023-08-17 16:30:11

1245

機器學習發展歷程

機器學習發展歷程：機器學習發展現狀、機器學習發展前景和機器學習發展歷史隨著科技的快速發展，全球各個行業都在加速數字化轉型，從而加速了人工智能和機器學習的發展。機器學習已經成為許多公司和組織實現商業

2023-08-17 16:30:15

1038

已全部加載完成

搜索歷史

關于猿輔導機器學習項目ytk-learn和ytk-mp4j分布式機器學習庫 - 全文

ytk-learn分布式機器學習庫

項目背景

項目簡介

ytk-mp4j 分布式機器學習通信庫 ?

項目背景

項目簡介

本文導航

評論

ytk-mp4j 分布式機器學習通信庫
?