机器学习算法笔记(三十六):Bagging

虽然我们上文实现了简单的集成学习,但是它还是存在着问题——从投票的角度来看,这些算法仍然不够。如果我们想尽量保证最终有好的结果的话,我们希望有成千上万的投票者来保证最终的结果更加可信(概率论中的“大数定理”)。所以我们就需要创建更多子模型、集成更多子模型的意见,且子模型之间要用差异性,创建差异性的一个重要思路就是对子模型运用放回取样(Bagging)不放回取样(Pasting)阅读全文 机器学习算法笔记(三十六):Bagging

机器学习算法笔记(三十五):集成学习初探

从本文开始,我们来讨论机器学习中非常重要的一类方法——集成学习。

一、什么是集成学习

简而言之,集成学习的思路就是:我们在解决一个问题(如分类问题)的时候,选取多种算法参与预测(如下图中的算法都可以解决分类问题),在多个预测结果中,选择出现最多的预测类别做为该样本的最终预测类别。 阅读全文 机器学习算法笔记(三十五):集成学习初探

机器学习算法笔记(三十四):使用 SVM 解决回归问题

前两篇文章主要讨论了用 SVM 解决分类问题,本文来讨论一下如何用 SVM 来解决回归问题。

回归问题的本质就是找到一根直线或者曲线,能够最大程度拟合数据点。如何定义拟合,就是不同回归算法的关键 阅读全文 机器学习算法笔记(三十四):使用 SVM 解决回归问题

机器学习算法笔记(三十三):SVM 使用多项式特征与核函数

上文中我们处理 SVM 都是使用线性分类的,也就是假设数据集是线性可分的。本文就着重讨论一下使用多项式特征处理非线性数据的 SVM,并且引出“核函数”的概念。 阅读全文 机器学习算法笔记(三十三):SVM 使用多项式特征与核函数