本文共 626 字,大约阅读时间需要 2 分钟。
集成
并行 偏差+方差 重要性计算(GBDT衡量特征j的全局重要度通过:特征j在单颗树中的重要度的平均值来衡量,RF是通过置换检验,可放回抽样)并行
二次泰勒展开 正则项 缺失值 采样 分裂选择计算:GBDT是gini系数,XGB是综合分割前后的分数增益+正则项。分裂策略:xgb做无差别分裂level-wise,后剪枝,lightgbm做leaf-wise分裂,前剪枝。减小分裂开销。
决策树算法:exact算法和直方图算法。 lightgbm的优势:决策树的建立。
虽然是leaf-wise,但是可能树长的比较深,所以小数据集可能过拟合,因此参数中有树的深度的限制。
直方图用桶的索引标志 对大数据的优势在于:内存访问机制。大数据顺序访问比随机访问要更快,因为cache miss导致xgb慢很多。 传统的机器学习没办法输入离散值,首先转化为高维的二进制的01特征,浪费内存和时间。lightgbm直接使用离散特征分桶计算,速度快了8倍以上。数据并行,
特征并行, 投票并行,这是对数据并行的改进, 慢工出细活:小的学习率加大的迭代次数。特征随机性:每个结点分裂都需要随机选择特征
OOB的结果近似K折交叉验证,估计OOB时,只用到了随机森林中的部分树,使用了1/3的未用到的数据进行最后的评估。转载地址:http://kkmfb.baihongyu.com/