机器学习提纲-白红宇

机器学习提纲

阅读量：2225 次

发布时间：2019-05-09

本文共 626 字，大约阅读时间需要 2 分钟。

RF和GBDT的区别

集成

并行

偏差+方差

重要性计算（GBDT衡量特征j的全局重要度通过：特征j在单颗树中的重要度的平均值来衡量，RF是通过置换检验，可放回抽样）

并行

二次泰勒展开

正则项

缺失值

采样

分裂选择计算：GBDT是gini系数，XGB是综合分割前后的分数增益+正则项。

分裂策略：xgb做无差别分裂level-wise，后剪枝，lightgbm做leaf-wise分裂，前剪枝。减小分裂开销。

决策树算法：exact算法和直方图算法。

lightgbm的优势：

决策树的建立。

虽然是leaf-wise，但是可能树长的比较深，所以小数据集可能过拟合，因此参数中有树的深度的限制。

直方图用桶的索引标志

对大数据的优势在于：内存访问机制。大数据顺序访问比随机访问要更快，因为cache miss导致xgb慢很多。

传统的机器学习没办法输入离散值，首先转化为高维的二进制的01特征，浪费内存和时间。lightgbm直接使用离散特征分桶计算，速度快了8倍以上。

数据并行，

特征并行，

投票并行，这是对数据并行的改进，

慢工出细活：小的学习率加大的迭代次数。

特征随机性：每个结点分裂都需要随机选择特征

OOB的结果近似K折交叉验证，估计OOB时，只用到了随机森林中的部分树，使用了1/3的未用到的数据进行最后的评估。

转载地址：http://kkmfb.baihongyu.com/

你可能感兴趣的文章