xgboost中哪些特征可以歸一化?
短語(yǔ)參數(shù)的命名規(guī)則。現(xiàn)在xgboosts模塊。在這個(gè)模塊中,命名規(guī)則與skl:基本上用的是gbtr:多線程,如果沒(méi)有設(shè)置,算自動(dòng)檢查并行計(jì)算的核心數(shù)量。
2.助推器參數(shù)
η(學(xué)習(xí)rat:學(xué)習(xí)率0.01-0.2。
min_chil:子節(jié)點(diǎn)的最低權(quán)重和。防止高的時(shí)候過(guò)貼,低的時(shí)候容易欠貼。
Max_d:損失閾值,當(dāng)損失降低超過(guò)該閾值時(shí),分割將繼續(xù)。
最大增量步長(zhǎng):在最大增量步長(zhǎng)中,我們?cè)试S每個(gè)樹(shù)的權(quán)重估計(jì)為。
在subsampl:,當(dāng)構(gòu)建0.5-1中的每棵樹(shù)時(shí),為了避免過(guò)擬合,只取一部分樣本進(jìn)行構(gòu)建。
colsampl:[0.5-1]特征采樣
Colsampl:L2正則化$T:L1正則項(xiàng)
秤_位置_重量
3.訓(xùn)練參數(shù)
客觀二分類使用binary:logistic多分類使用multi:softmax直接返回標(biāo)簽,也可以使用multi:softbob或predict_prob訓(xùn)練后輸出類別的概率。
eval_metric:用它來(lái)評(píng)估。估計(jì)驗(yàn)證數(shù)據(jù):RMSE,平均誤差,對(duì)數(shù)損失,誤差,對(duì)數(shù)損失,auc。
4.XGBoost允許在每次boosting迭代中使用交叉驗(yàn)證。因此,可以方便地獲得最佳的升壓迭代次數(shù)。而如果用sklearn的kfold和cross_val_score,這就是每個(gè)模型訓(xùn)練只用一個(gè)固定數(shù)據(jù),而不是每輪boosting都要交叉校驗(yàn)。
5.關(guān)于特色工程
XGBOOST是樹(shù)的增強(qiáng)模型。由于樹(shù)的非線性特征,我們不不需要標(biāo)準(zhǔn)化(正態(tài)分布)或縮放(到01區(qū)間)特征。
或者拿log(這個(gè)存疑,我個(gè)人覺(jué)得拿log可能有用?),但我們應(yīng)該關(guān)注的是創(chuàng)造特色。
比如過(guò)去五天的平均值,去年同期的數(shù)值,環(huán)比增加,同比增長(zhǎng)。比如租房的場(chǎng)景,房租/臥室數(shù)量這些和業(yè)務(wù)非常相關(guān)的東西,其實(shí)是需要不斷摸索才能找到的。XGBOOSTcan不能幫助我們獲得這些特性。
與深度學(xué)習(xí)相比,深度學(xué)習(xí)本質(zhì)上依賴于特殊的結(jié)構(gòu),如LSTM和CNN,來(lái)獲得適合于這項(xiàng)業(yè)務(wù)的特征。
那么分類功能在XGBOOST中并不是特別有用,如果相關(guān)性不是很大可以去掉。如果類別不多,比如只有個(gè)位數(shù)的類別,可以添加。如果類別很多,可以考慮使用CATBOOSTING或者LIGHTGBM。
采購(gòu)員的崗位職責(zé),英文版?
R:
進(jìn)行戰(zhàn)略性采購(gòu)
-協(xié)助團(tuán)隊(duì)領(lǐng)導(dǎo)建立采購(gòu)預(yù)算、商品策略和運(yùn)營(yíng)計(jì)劃。
-研究采購(gòu)營(yíng)銷,推薦新的潛在供應(yīng)商支持買家
本地化協(xié)調(diào)
-負(fù)責(zé)本地化開(kāi)發(fā),并針對(duì)項(xiàng)目指導(dǎo)提供跨職能支持
-與采購(gòu)/SDE/采購(gòu)團(tuán)隊(duì)合作跟蹤所有開(kāi)發(fā)零件的過(guò)程,包括所有驗(yàn)證階段
-與內(nèi)部部門(mén)合作,協(xié)調(diào)和推進(jìn)新的本地化流程
-本地化FAI跟蹤列表,推動(dòng)新的本地化流程
產(chǎn)品視圖計(jì)算(面向項(xiàng)目)
-定期創(chuàng)建MLL零件清單,并用Fico數(shù)據(jù)更新采購(gòu)價(jià)格
