集成学习介绍(4)——GBDT&XGBoost

GBDT概述GBDT全称Gradient Boosting Decision Trees,即梯度提升回归树。GBDT可以拆分2部分:GB+DT。GB是一种通用思想或者算法,GBDT只是众多GBM(Gradient Boosting Machine)里面的一种。所以先来看GB。Boosting前面已经介绍过了,就是用多个弱学习器顺序迭代生成一个强学习器,GB里面的重点在于每次迭代的时候是拟合残...

集成学习介绍(3)——Random Forest

随机森林是一个非常直观,理解起来也比较容易的Bagging算法。前面我们介绍过决策树,其最大的一个缺点就是容易过拟合。随机森林则是由若干决策树组成的模型,其思想就是“三个臭皮匠顶个诸葛亮”。比如下图,就是由9个决策树组成的一个随机森林,其中6个决策树预测值为1,三个预测为0 ,所以最终预测值取多数方:1。如果是回归问题,一般取所有决策树预测结果的均值。理解随机森林的关键点在于理解“相关度低甚...

集成学习介绍(2)——AdaBoost

概述AdaBoost是Adaptive Boosting的缩写,即自适应提升法,是最成功的Boosting算法。具体算法如下:Step1: Initialise the dataset and assign equal weight to each of the data point. Step2: Provide this as input to the model and identif...

决策树介绍

在接下来介绍的具体的集成算法里面,大都是以决策树作为最底层的算法,所以本篇先介绍一下决策树。本文整理自2017年的学习笔记。决策树是一个非常简单的算法,至少其思想是非常简单的。生活中我们经常会使用,看几个例子。场景1,母亲给女儿介绍男朋友,下面是二人的对话:女儿:多大年纪了?母亲:26。女儿:长的帅不帅?母亲:挺帅的。女儿:收入高不?母亲:不算很高,中等情况。女儿:是公务员不?母亲:是,在税...

集成学习介绍(1)——Boosting&Bagging

最近准备整理一下之前关于集成学习的学习笔记,写一个关于集成学习的系列文章,毕竟目前用的比较多的机器学习算法基本都属于集成学习,整理一下,也算温习一下。有些笔记时间比较久了,里面的一些引用来源找不到了,所以有些引用可能附不全,敬请谅解。目前确定的几篇包括:集成学习介绍(1)——Boosting && Bagging集成学习介绍(2)——AdaBoost集成学习介绍(3)——Random For...

Logistic Regression算法

在之前的《常见线性回归模型》一文中,介绍了机器学习中比较简单但又非常常用的线性回归模型,今天来介绍另外一个模型:Logistic Regression,这又是机器学习中用的非常多的一个模型。虽然Logistic Regression(后简称LR)里面带了回归字样(Regression),但它实际是一个分类模型(关于回归和分类的区别见《机器学习介绍》),更准确的说是一个二分类模型(0、1或者t...

朴素贝叶斯分类器

贝叶斯定理是概率论中非常有名的一个定理,而朴素贝叶斯(Naive Bayes)则是贝叶斯理论下非常有名的一个算法,在ML和NLP领域里面应用非常多。之前做过一些学习笔记,今天把原来的笔记再梳理了一下,发到博客上面来。如有不对之处,欢迎指正。另外,因为过的时间比较久了,当时整理时参考的一些出处已经记不得了,后面就不附出处了,开始正题。贝叶斯公式先看一下贝叶斯涉及到的一些概率论的概念:$$ P(...

常见线性回归模型

线性回归公式线性回归公式:$$ { \hat y=\omega_0+\omega_1x_1+...+\omega_px_p } $$说明:数学上,我们把$\omega=(\omega_1,...,\omega_p)$称为系数(coefficient),$\omega_0$称为截距(intercept)。在机器学习里面,$y$是我们要预测的目标变量,$x_i$代表每个特征变量。$y$上面的小标...
News
博客暂时休业中...

我负责的数据中台部门一直在招聘大数据方面的人才(base地在西安和南京),如果你有兴趣,欢迎和我联系!18809185643(微信同号)
最近评论
勇往直前Yarn管理的资源,在Flink WebUI 上提交的Job好像只能使用Session Clu...
1感谢
王桑~自问自答:Job的提交过程:下载应用所需的依赖执行main()方法提取 job graph将依...
王桑~您好,请教个问题flink 1.11后,引入了application mode,这个模是在集群...
称呼你还会打羽毛球?
二里庄本狱友前来观摩了
王叔叔纠正博主一个错误一般生产环境比较推荐Session ClusterJob Cluster用的比...
王叔叔文字写的真棒,是近几个月看过的最好的技术博客。博主原来也在菊花厂待过,也算是狱友了,祝好~
lay为什么两次心率会差这么多呢
刘海数值类型的termQuery被转换成了pointRangeQuery,性能会受影响吗?要不要把...