NYC's Blog

关于

我是一个喜欢写点生活感悟，做点技术笔记的软件爱好者（程序员？），除了腰椎间盘突出，没有其他特别突出的地方。因为找不到一个特别满意的写作平台（我的基本要求：界面清爽无广告、功能简约而不简单、适合写技术也适合写生活），就搭建了一个自己的博客网站。过好生活、干好工作（多成事），就是我的人生目标！更多：关于。

最新技术文章

2022.03.26 集成学习介绍（4）——GBDT&XGBoost

GBDT概述GBDT全称Gradient Boosting Decision Trees，即梯度提升回归树。GBDT可以拆分2部分：GB+DT。GB是一种通用思想或者算法，GBDT只是众多GBM...
2022.03.20 集成学习介绍（3）——Random Forest

随机森林是一个非常直观，理解起来也比较容易的Bagging算法。前面我们介绍过决策树，其最大的一个缺点就是容易过拟合。随机森林则是由若干决策树组成的模型，其思想就是“三个臭皮匠顶个诸葛亮”。比如...
2022.03.12 集成学习介绍（2）——AdaBoost

概述AdaBoost是Adaptive Boosting的缩写，即自适应提升法，是最成功的Boosting算法。具体算法如下：Step1: Initialise the dataset and ...
2022.03.05 决策树介绍

在接下来介绍的具体的集成算法里面，大都是以决策树作为最底层的算法，所以本篇先介绍一下决策树。本文整理自2017年的学习笔记。决策树是一个非常简单的算法，至少其思想是非常简单的。生活中我们经常会使...
2022.02.26 集成学习介绍（1）——Boosting&Bagging

最近准备整理一下之前关于集成学习的学习笔记，写一个关于集成学习的系列文章，毕竟目前用的比较多的机器学习算法基本都属于集成学习，整理一下，也算温习一下。有些笔记时间比较久了，里面的一些引用来源找不...
2022.02.20 如何修改Pandas中列的类型

问题如题。一般pandas读取数据的时候，会自动检测数据的类型，但有时候可能不是特别准确，还需要我们自己做类型转换。比如下面这种：a = [['a', '1.2', '4.2'], ['b', ...
2022.02.12 从数仓到数据湖，再到Data LakeHouse

Data LakeHouse是一种新型的湖仓一体架构，该架构旨在用一套系统实现原来的数据仓库（Data Warehouse）加数据湖（Data Lake）的功能。数仓、数据湖、LakeHouse...
2022.02.06 Kafka的消费者分区分配策略

本文是《Kafka的Consumer Group Rebalance》一文的补充部分，主要附加介绍一下Kafka内置的几种分区分配策略。Kafka定义了一个消费者组内分区分配的接口Consume...
更多技术类文章

其他

归档

关于

最新技术文章

2022.03.26 集成学习介绍（4）——GBDT&XGBoost

2022.03.20 集成学习介绍（3）——Random Forest

2022.03.12 集成学习介绍（2）——AdaBoost

2022.03.05 决策树介绍

2022.02.26 集成学习介绍（1）——Boosting&Bagging

2022.02.20 如何修改Pandas中列的类型

2022.02.12 从数仓到数据湖，再到Data LakeHouse

2022.02.06 Kafka的消费者分区分配策略

更多技术类文章

最新生活文章

更多生活类文章

其他