归档: 2016

机器学习笔记(Chapter 10 - K-均值聚类算法)

聚类是一种无监督学习,将相似的对象归到同一个簇中,类似全自动分类,即类别体系也是自动构建的。聚类方法几乎可以应用于所有对性,簇内的对象越相似,聚类效果越好。K-均值聚类算法可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值构成。聚类与分类的区别在于,分类的目标事先已知,而聚类未知。

机器学习笔记(Chapter 09 - 树回归)

第8章的线性回归创建的模型需要拟合所有的样本点(除了局部加权线性回归)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就比较困难,并且生活中很多问题是非线性的,无法用全局线性模型来拟合所有数据。一种方法是将数据集递归地切分成很多份易建模的数据,并对可以拟合的小数据集用线性回归建模。

《函数式编程思维》笔记

函数式编程中粒度最小的重用单元是函数(一等公民),并具备值不可变性,带给我的感受是通过一系列基本数据结构方法的复用,配合高阶函数,用最基本的方法叠加出复杂的解法。在用Haskell解决问题总能体会到逆向思维,从目标出发,一步步推到初始条件。函数式的模式匹配、柯里化和部分施用都很有特色,在这种思维下思考是一个很享受的过程。下面是阅读《函数式编程思维》时做摘录的整理。

机器学习笔记(Chapter 01-04)

最近在自学数据挖掘和机器学习方面的内容,参考《机器学习实战 - 美Peter Harrington》。整理笔记备忘,所有代码除小部分改动和增加外,都来自附书源码。下面为Chapter1~Chapter4内容。