博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习提纲
阅读量:2225 次
发布时间:2019-05-09

本文共 626 字,大约阅读时间需要 2 分钟。

RF和GBDT的区别

集成

并行
偏差+方差
重要性计算(GBDT衡量特征j的全局重要度通过:特征j在单颗树中的重要度的平均值来衡量,RF是通过置换检验,可放回抽样)

XGB和GBDT的区别

并行

二次泰勒展开
正则项
缺失值
采样
分裂选择计算:GBDT是gini系数,XGB是综合分割前后的分数增益+正则项。

lightgbm和XGB的区别

分裂策略:xgb做无差别分裂level-wise,后剪枝,lightgbm做leaf-wise分裂,前剪枝。减小分裂开销。

决策树算法:exact算法和直方图算法。
lightgbm的优势:
在这里插入图片描述

GBDT细节

决策树的建立。

Xgb细节

lightgbm细节

虽然是leaf-wise,但是可能树长的比较深,所以小数据集可能过拟合,因此参数中有树的深度的限制。

直方图用桶的索引标志
在这里插入图片描述
对大数据的优势在于:内存访问机制。大数据顺序访问比随机访问要更快,因为cache miss导致xgb慢很多。
在这里插入图片描述
传统的机器学习没办法输入离散值,首先转化为高维的二进制的01特征,浪费内存和时间。lightgbm直接使用离散特征分桶计算,速度快了8倍以上。

并行

数据并行,

特征并行,
投票并行,这是对数据并行的改进,
在这里插入图片描述
慢工出细活:小的学习率加大的迭代次数。
在这里插入图片描述

RF细节

特征随机性:每个结点分裂都需要随机选择特征

OOB的结果近似K折交叉验证,估计OOB时,只用到了随机森林中的部分树,使用了1/3的未用到的数据进行最后的评估。

转载地址:http://kkmfb.baihongyu.com/

你可能感兴趣的文章
结构化查询语言(SQL)原理
查看>>
SQL教程之嵌套SELECT语句
查看>>
日本語の記号の読み方
查看>>
计算机英语编程中一些单词
查看>>
JavaScript 经典例子
查看>>
判断数据的JS代码
查看>>
js按键事件说明
查看>>
AJAX 初次体验!推荐刚学看这个满好的!
查看>>
AJAX 设计制作 在公司弄的 非得要做出这个养的 真晕!
查看>>
Linux 查看文件大小
查看>>
Java并发编程:线程池的使用
查看>>
redis单机及其集群的搭建
查看>>
Java多线程学习
查看>>
检查Linux服务器性能
查看>>
Java 8新的时间日期库
查看>>
Chrome开发者工具
查看>>
【LEETCODE】102-Binary Tree Level Order Traversal
查看>>
【LEETCODE】106-Construct Binary Tree from Inorder and Postorder Traversal
查看>>
【LEETCODE】202-Happy Number
查看>>
和机器学习和计算机视觉相关的数学
查看>>