2016

大数据/分布式系统

2016-02-21

机器学习笔记（Chapter 10 - K-均值聚类算法）

聚类是一种无监督学习，将相似的对象归到同一个簇中，类似全自动分类，即类别体系也是自动构建的。聚类方法几乎可以应用于所有对性，簇内的对象越相似，聚类效果越好。K-均值聚类算法可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值构成。聚类与分类的区别在于，分类的目标事先已知，而聚类未知。

大数据/分布式系统

2016-02-20

机器学习笔记（Chapter 09 - 树回归）

第8章的线性回归创建的模型需要拟合所有的样本点（除了局部加权线性回归）。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法就比较困难，并且生活中很多问题是非线性的，无法用全局线性模型来拟合所有数据。一种方法是将数据集递归地切分成很多份易建模的数据，并对可以拟合的小数据集用线性回归建模。

大数据/分布式系统

2016-02-18

机器学习笔记（Chapter 08 - 回归）

回归是前面监督学习方法的延续，监督学习指的是有目标变量或者预测目标的机器学习方法。回归于分类的不同在于其目标变量是连续数值型。

大数据/分布式系统

2016-02-14

机器学习笔记（Chapter 07 - AdaBoost元算法）

元算法是对其他算法进行组合的一种方式。在做决定时，大家通常考虑吸取多个专家（分类算法）而不是一个专家的意见。当我们试图对样例数目不均衡的数据进行分类时，会遇到非均衡分类问题。

大数据/分布式系统

2016-02-11

机器学习笔记（Chapter 06 - 支持向量机）

支持向量机（Support Vector Machineds，SVM）是一个二类问题的分类器，实现方法多样，这里采用了序列最小优化（SMO）实现方法，并通过核函数拓展到非线性可分的SVM。

大数据/分布式系统

2016-02-09

机器学习笔记（Chapter 05 - Logistic回归）

Logistic回归根据现有数据对边界回归线建立回归公式，以此进行分类。训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化算法。

大数据/分布式系统

2016-02-04

机器学习笔记（Chapter 01-04）

最近在自学数据挖掘和机器学习方面的内容，参考《机器学习实战 - 美Peter Harrington》。整理笔记备忘，所有代码除小部分改动和增加外，都来自附书源码。下面为Chapter1~Chapter4内容。

2015

2015-12-25

最大流（一）

简述最大流问题，给出一种解决最大流的最简单方法，及在二分图匹配中的应用。

2015-12-24

差分约束系统

差分约束的最短路径算法证明和解释。

2015-12-23

最短路径

分析图论中各类最短路径问题的算法设计，给出 Bellman-Ford，Dijkstra，SPFA 和 Floyd-Warshall 算法描述与代码。