百家乐官网游戏平台排名,瑞士百家乐的玩法技巧和规则 ,足球博彩公司如何赚钱(中国)·官方网站

在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到，Spark 的MLlib組件能夠對工業(yè)現(xiàn)場海量數(shù)據(jù)進行高效挖掘，快速呈現(xiàn)結果給業(yè)務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法，并將應用該算法對工業(yè)數(shù)據(jù)進行代碼實戰(zhàn)。

1算法概念

GB（Gradient Boosting）梯度提升算法，GB 共需要進行M次迭代，通過采用梯度下降的方法，每次迭代向損失函數(shù)的負梯度方向進行移動，從而使損失函數(shù)越來越小，進而使模型越來越精確。算法偽代碼如下：

圖片 1.png

GB算法跟原始的Boosting算法相比較，還是有比較明顯的區(qū)別。

Boosting算法開始的時候，是會給每個樣本附上權重的，在每次迭代的時候就會增加錯的樣本的權重，減少對的樣本的權重，經過N次迭代之后，會得到N個分類器，然后我們再將他們組合起來，得到最終模型。

GB算法與Boosting區(qū)別是，他的每一次迭代的目標都是減少上一次的殘差，所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹，就是GBDT（GradientBoost Decision Tree）算法。

GBDT主要的優(yōu)點有：

1) 可以靈活處理各種類型的數(shù)據(jù)，包括連續(xù)值和離散值。

2) 在相對少的調參時間情況下，預測的準備率也可以比較高。這個是相對SVM來說的。

3)使用一些健壯的損失函數(shù)，對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類器進行級聯(lián)。

5) 充分考慮的每個分類器的權重。

6) 可以得到變量間的重要性排序。

GBDT的主要缺點有：

1）由于弱學習器之間存在依賴關系，難以并行訓練數(shù)據(jù)，不過可以通過自采樣的SGBT來達到部分并行。

1完整代碼實例

工業(yè)生產中，產品在制程過程中會有很多特性值，如果能對產品的特性值及時進行預測，得到特性值的具體數(shù)值，那么就會幫組業(yè)務人員知曉產品的質量，實現(xiàn)產品的全檢，并能防止異常產品后流，造成不必要的浪費。

本次實戰(zhàn)代碼的采用的數(shù)據(jù)是半導體制程中某一道工序的機臺的制程參數(shù)值，通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機臺的制程參數(shù)進行建模，預測出經過該機臺生產之后產品的膜層厚度。

packageSparkML

importcommon.Logger
importorg.apache.spark.ml.Pipeline
importorg.apache.spark.ml.evaluation.{BinaryClassificationEvaluator,RegressionEvaluator}
importorg.apache.spark.ml.feature.VectorAssembler
importorg.apache.spark.ml.regression.GBTRegressor
importorg.apache.spark.ml.tuning.{CrossValidator,ParamGridBuilder}
importorg.apache.spark.sql.{Row,SparkSession}
importscala.collection.mutable.ArrayBuffer
/**
* Created by huanghuan01 on 2019/3/27.
*/
objectgbdtDemoextendsLogger{

defmain(args: Array[String]):Unit= {
valspark= SparkSession
.builder()
.enableHiveSupport()
.master("local[4]")
.appName("gbdtDemo")
.getOrCreate()

spark.sparkContext.setLogLevel("WARN")

varrawData= spark.read.format("csv")
.option("header","true")
.load("E:\\sampleData.csv")

valfieldNames= rawData.schema.map(f=>s"${f.name}").toArray

valcastBuffer:ArrayBuffer[String] = ArrayBuffer()
for(i<-0until fieldNames.length){
valcast_str="cast("+ fieldNames(i) +" as double) as "+ fieldNames(i)
castBuffer.append(cast_str)
}
valcastArr= castBuffer.toArray
valinputData = rawData.selectExpr(castArr:_*)
valfeatureFieldNames= fieldNames.filter(!_.contains("label"))

valfeatureIndexer=newVectorAssembler()
.setInputCols(featureFieldNames)
.setOutputCol("featureIndexer")

valgbt=newGBTRegressor()
.setLabelCol("label")
.setFeaturesCol("featureIndexer")

valArray(trainingData,testData) =inputData.randomSplit(Array(0.8,0.2))

valpipline =newPipeline()
.setStages(Array(featureIndexer,gbt))

valparamGrid =newParamGridBuilder()

.addGrid(gbt.maxIter,Array(30,50,100,200))

.addGrid(gbt.maxDepth,Array(3,7,9))

.addGrid(gbt.stepSize,Array(0.01,0.05,0.1))

.build()

valcv =newCrossValidator()
.setEstimator(pipline)
.setEvaluator(newRegressionEvaluator())
.setNumFolds(5)
.setEstimatorParamMaps(paramGrid)
valmodel =cv.fit(trainingData)

valpredictions =model.transform(testData)

predictions.select("label","prediction").show(100,false)

valevaluator =newRegressionEvaluator()
.setLabelCol("label")
.setPredictionCol("prediction")
.setMetricName("mae")

val mae = evaluator.evaluate

(predictions)
log.warn(s"The mae is : ${mae}")

val predictionAndLabels =

predictions

.select("prediction",

"label")

.rdd

.map { case Row(prediction:

Double, label: Double) =>

(prediction, label) }

val mape = math.abs

(predictionAndLabels.map

{ x => math.abs((x._1 - x._2) /

x._1) }.mean())

log.warn(s"The mape is :

${mape}")

val pipLine = model.bestModel.

asInstanceOf[org.apache.spark.

ml.PipelineModel]

}
}

模型最后輸出模型性能指標如下：

Mape(Mean Absolute Percentage Error):0.23%

圖片 2.png

通過上圖模型輸出的預測值與實際值對比，發(fā)現(xiàn)預測出來的產品膜厚的數(shù)值走勢跟實際數(shù)值走勢基本符合，mape達到0.5%以內，擬合度相當可觀，后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調優(yōu)。

在模型達到業(yè)務需求的擬合度等指標后，通過該模型進行部署，實現(xiàn)產品的“實時全檢”，從而實現(xiàn)產品質量的全面監(jiān)控，杜絕異常產品后流；與工廠內的抽檢系統(tǒng)結合后，降低產品的抽檢率，提高工廠的效率。

GBDT算法的用途還是比較廣泛的，它不僅可以處理分類問題，能對線性與非線性回歸問題進行處理，還能通過輸出變量間重要因子排序，方便業(yè)務人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產品特性預測等領域，GBDT算法確實是很值得數(shù)據(jù)分析人員考慮的一種算法。

本文作者：

格創(chuàng)東智大數(shù)據(jù)工程師黃歡（轉載請注明作者及來源）

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

算法

算法

+關注

關注
23

文章
4630

瀏覽量
93356
智能制造

智能制造

+關注

關注
48

文章
5612

瀏覽量
76565
工業(yè)互聯(lián)網(wǎng)

工業(yè)互聯(lián)網(wǎng)

+關注

關注
28

文章
4330

瀏覽量
94269
SPARK

SPARK

+關注

關注
1

文章
105

瀏覽量
19975
工業(yè)大數(shù)據(jù)

工業(yè)大數(shù)據(jù)

+關注

關注
0

文章
72

瀏覽量
7880
GBDT

GBDT

+關注

關注
0

文章
13

瀏覽量
3917

工業(yè)現(xiàn)場數(shù)據(jù)實時采集：解鎖工業(yè)智能化轉型的關鍵

在當今工業(yè)智能化轉型的浪潮中，工業(yè)現(xiàn)場數(shù)據(jù)實時采集的重要性不言而喻。它猶如企業(yè)運營的 “慧眼”，為企業(yè)帶來全方位的顯著價值。

發(fā)表于 01-20 13:24 ?115次閱讀

<b class='flag-5'>工業(yè)</b>現(xiàn)場<b class='flag-5'>數(shù)據(jù)實</b>時采集：解鎖<b class='flag-5'>工業(yè)</b>智能化轉型的關鍵

工程大數(shù)據(jù)平臺

由于無人駕駛系統(tǒng)開發(fā)需要長期迭代優(yōu)化，其過程需要大量的路試數(shù)據(jù)支撐，經緯恒潤針對無人駕駛系統(tǒng)持續(xù)運營和持續(xù)迭代的需求，開發(fā)并在云端部署了車路云工程大數(shù)據(jù)平臺，依托5G網(wǎng)絡，具有遠程數(shù)據(jù)采集、壓縮、傳輸、解析、回放與

發(fā)表于 01-10 17:00 ?141次閱讀

ADS1675最大數(shù)據(jù)吞吐率是是多少？

ADS1675 24bit的ADC的采樣率最大是4Msps，請問這款adc的最大數(shù)據(jù)吞吐率是是多少？怎么算的，在datasheet中有明確寫出來嗎

發(fā)表于 11-28 07:56

西北工業(yè)大學OpenHarmony技術俱樂部正式揭牌成立

11月15日，由OpenAtom OpenHarmony（以下簡稱“OpenHarmony”）項目群技術指導委員會與西北工業(yè)大學共同舉辦的“西北工業(yè)大學OpenHarmony技術俱樂部成立大會”在

發(fā)表于 11-19 18:04 ?397次閱讀

西北<b class='flag-5'>工業(yè)大</b>學OpenHarmony技術俱樂部正式揭牌成立

智慧城市與大數(shù)據(jù)的關系

智慧城市與大數(shù)據(jù)之間存在著密切的關系，這種關系體現(xiàn)在大數(shù)據(jù)對智慧城市建設的支撐和推動作用，以及智慧城市產生的大量數(shù)據(jù)對大數(shù)據(jù)技術的應用需求。 大數(shù)據(jù)

發(fā)表于 10-24 15:27 ?845次閱讀

大數(shù)據(jù)實時鏈路備戰(zhàn)——數(shù)據(jù)雙流高保真壓測

作者：京東零售京東零售一、大數(shù)據(jù)雙流建設 1.1 數(shù)據(jù)雙流 大數(shù)據(jù)時代，越來越多的業(yè)務依賴實時數(shù)據(jù)用于決策，比如促銷調整，點擊率預估、廣告分傭等。為了保障業(yè)務的順利開展，也為了保證

發(fā)表于 10-22 14:40 ?277次閱讀

基于大數(shù)據(jù)與深度學習的穿戴式運動心率算法

性能的關鍵手段。然而，在復雜多變的運動環(huán)境中，準確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術瓶頂。本文將探討如何運用大數(shù)據(jù)和深度學習技術來開發(fā)創(chuàng)新的穿戴式運動心率算

發(fā)表于 09-10 08:03 ?320次閱讀

小鵬汽車榮獲2024年機械工業(yè)大型重點骨干企業(yè)

近日，由中國機械工業(yè)聯(lián)合會主辦的“2024年機械工業(yè)大型重點骨干企業(yè)發(fā)展論壇暨機械、鋼鐵產業(yè)鏈融通發(fā)展大會”在北京舉行，小鵬汽車榮獲“機械工業(yè)大型重點骨干企業(yè)”稱號。

發(fā)表于 08-05 10:26 ?572次閱讀

工業(yè)大數(shù)據(jù)云平臺在設備預測性維護中的作用

，只有保證設備的安全穩(wěn)定運行才能保障生產的持續(xù)，質量的可靠，提升企業(yè)產品競爭力。因此，企業(yè)就需要加強對設備狀況的及時把握，并一定程度上實現(xiàn)工業(yè)設備預測性維護。為此，數(shù)之能提供的工業(yè)大數(shù)據(jù)云平臺可以全面接入

發(fā)表于 06-28 15:31 ?286次閱讀

感謝湖北工業(yè)大學對我司高低溫試驗箱的認可

近日，我們收到了來自湖北工業(yè)大學的一份重要認可函，這份函件是對我們公司研發(fā)的高低溫試驗箱的高度評價和肯定。在此，我們深感榮幸，并對湖北工業(yè)大學表示衷心的感謝。感謝湖北工業(yè)大學對我司高低溫試驗箱的認可

發(fā)表于 05-29 09:59 ?350次閱讀

海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議

海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議

發(fā)表于 05-14 14:58 ?572次閱讀

工業(yè)大模型的五個基本問題

工業(yè)業(yè)大模型是大模型為賦能工業(yè)應用所產生的產業(yè)新形態(tài)，是制造業(yè)數(shù)字化轉型3.0的重要載體，是一個新質體。

發(fā)表于 04-23 16:04 ?785次閱讀

為新型工業(yè)體系智慧賦能，需要什么樣的工業(yè)以太網(wǎng)交換機？

今天，打造新型工業(yè)體系已經成為了眾多行業(yè)轉型升級的引導方向。讓基于算力和大數(shù)據(jù)實現(xiàn)的智慧價值為各種傳統(tǒng)工業(yè)賦能，同時更好地滿足不同行業(yè)的特定需求，正是構建新型工業(yè)體系的一條關鍵路徑。

發(fā)表于 04-17 09:53 ?519次閱讀

工業(yè)大數(shù)據(jù)發(fā)展面臨的問題

工業(yè)大數(shù)據(jù)作為工業(yè)與數(shù)字經濟之間的橋梁紐帶，對加快工業(yè)數(shù)字化轉型、推進數(shù)實融合，支撐新型工業(yè)化建設意義重大。

發(fā)表于 04-16 11:52 ?604次閱讀

CYBT-343026傳輸大數(shù)據(jù)時會丟數(shù)據(jù)的原因？

我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。我根據(jù) SPP 樣本制作了一個操作 SPP 的應用程序。但是，傳輸大數(shù)據(jù)時有時會丟失數(shù)據(jù)。它從

發(fā)表于 03-01 15:04