机器学习笔记(Chapter 09 - 树回归)
第8章的线性回归创建的模型需要拟合所有的样本点(除了局部加权线性回归)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就比较困难,并且生活中很多问题是非线性的,无法用全局线性模型来拟合所有数据。一种方法是将数据集递归地切分成很多份易建模的数据,并对可以拟合的小数据集用线性回归建模。
第8章的线性回归创建的模型需要拟合所有的样本点(除了局部加权线性回归)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就比较困难,并且生活中很多问题是非线性的,无法用全局线性模型来拟合所有数据。一种方法是将数据集递归地切分成很多份易建模的数据,并对可以拟合的小数据集用线性回归建模。
元算法是对其他算法进行组合的一种方式。在做决定时,大家通常考虑吸取多个专家(分类算法)而不是一个专家的意见。当我们试图对样例数目不均衡的数据进行分类时,会遇到非均衡分类问题。
支持向量机(Support Vector Machineds,SVM)是一个二类问题的分类器,实现方法多样,这里采用了序列最小优化(SMO)实现方法,并通过核函数拓展到非线性可分的SVM。
最近在自学数据挖掘和机器学习方面的内容,参考《机器学习实战 - 美Peter Harrington》。整理笔记备忘,所有代码除小部分改动和增加外,都来自附书源码。下面为Chapter1~Chapter4内容。