最近在自学数据挖掘和机器学习方面的内容,参考《机器学习实战 - 美Peter Harrington》。整理笔记备忘,所有代码除小部分改动和增加外,都来自附书源码。下面为Chapter1~Chapter4内容。
Chapter 01
- 使用NumPy
1 | >>> from numpy import * |
- deb源安装numpy和matplotlib:
pip install numpy
,在此前需要安装python-dev。安装matplotlib前需要libpng,在sourceforge可以找到最新版本,之后apt-get install python-matplotlib
。python3和python2类似。 - 标称型和数值型:分别从有限和无限目标集中取值。
- 选择合适算法
- 预测目标变量的值:监督学习算法 => 目标变量为离散型:分类算法; 目标变量为连续型:回归算法。
- 不预测目标变量:无监督学习算法 => 唯一需求是将数据划分为离散的组:聚类算法; 需要估计数据与每个组的相似度:密度估计算法。
- 开发机器学习程序步骤:收集数据->准备输入数据->分析输入数据->训练算法->测试算法。
Chapter 02 - k-近邻算法
已知样本集中每一数据与所属分类的对应关系,将待定数据的每个特征与样本集中数据对应的特征进行比较,取前k个最相似数据决断。
kNN - Category
流程
- 计算已知类别数据集中的点和当前点之间的距离(map)
- 按距离递增排序(sort)
- 选取于当前点距离最小的k个点(take)
- 统计k个点所在类别的出现频率(sortBy frequency)
- 返回前k个点中出现频率最高的类别(length . group)
- Haskell的表示: reverse . sort . map length . group . sortBy frequency . take k . sort . map distance
Code - kNN.py
1 | from numpy import * |
约会网站配对效果
流程:收集数据(文本文件)->准备数据(用Python解析文本文件)->分析数据(用Matplotlib画二维扩散图)->训练算法(不适用k-近邻算法)->测试算法(使用提供的部分数据作为测试样本)->使用算法(产生命令行程序)
准备数据 - 文件->样本矩阵
数据存放在文本文件datingTestSet.txt中,每行为一个样本,共1000行,每行包含三种特征。在kNN.py中创建file2matrix将输入文本文件转为样本矩阵和类标签向量。
Code - kNN.py
1 | def file2matrix(filename): |
分析数据 - Matplotlib
作用在于从已有的样本中观察数据分布的特点,选择合适的坐标,区分数据点从属的类别。
交互命令
1 | >>> import kNN |
- 增加区分,修改上面的ax.scatter为
ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15.0*array(datingLabels),15.0*array(datingLabels))
,需要从numpy库中导入array数组。此时绘制的图形采用数据中的第2列和第3列作为横纵坐标,区分出三种类型但不够清晰。若采用第1列和第2列作为坐标,得到散点图如下。
准备数据 - 归一化
简单通过欧几里得距离衡量样本与数据间距离会受到数据大小范围影响,例如每年飞行常客里程数的差距远大于视频游戏百分比。因此将所有数据的特征值都归一到0~1之间或-1~1之间,公式为
newValue = (old - value - min) / ( max - min)
。Code - 归一化特征值 - kNN.py
1 | def autoNorm(dataSet): |
测试算法
取样本中一部分作为测试数据
Code - 测试算法 - kNN.py
1 | def datingClassTest(): |
手写识别系统
步骤
- 收集数据:提供32*32像素格式的txt文件
- 准备数据:编写函数img2vector()将文本文件转换为样本矩阵
- 分析数据:在命令提示符中检验数据正确性
- 训练算法:不适用于k-近邻算法
- 测试算法:使用部分数据集作为测试样本
准备数据
使用trainingDigits中的大约2000个例子作为样本,平均每个0~9的数字有200个样本。使用testDigits目录下的测试数据作为测试。
Code - img2vector - kNN.py
1 | def img2vector(filename): |
测试算法
测试946个文件,错误11个,修改变量k的值、随即训练样本的取样、训练样本的数目,都会对错误率产生影响。
Code - handwritingClassTest - kNN.py
1 | def handwritingClassTest(): |
k-近邻算法 总结
k-近邻算法是基于实例的学习,使用算法是必须有接近实际数据的训练样本数据,并且必须保存全部数据集,使用大量的存储空间。需要对数据集中的每个数据计算距离值,实际使用过程非常耗时。并且k-近邻算法无法给出任何数据的基础结构信息,因而我们无法知晓平均实例样本和典型实例样本具有什么样的特征。k-决策树是k-近邻算法的优化,减少存储空间和计算时间开销。
Chapter 03 - 决策树 - 熵度量
k-近邻算法无法持久化分类器,每次分类都需要重新学习,并且无法给出数据的内在含义。决策树的主要优势在于其数据形式非常容易理解,并且可以保存在硬盘上。
特性和思想
- 决策树优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关的特征数据。缺点:可能产生过度匹配问题。适用于数值型和标称型,数值型需先离散化。
整体思路:大原则是“将无序的数据变得更加有序”。从当前可供学习的数据集中,选择一个特性,根据这个特性划分出来的数据分类,可以获得最高的信息增益(在划分数据集前后信息发生的变化),也可以说是最小的熵(公式
l(xi) = p(xi)log(p(xi))
,出现的概率越小,携带的信息量越大,熵越高,混合的数据也就越多),信息增益是熵的减少,或者是数据无序度的减少。在此划分之后,对划分出的各个分类再次进行算法,直到所有分类中均为同一类元素,或所有特性均已使用。Code - trees.py - 计算香农熵
1 | def calcShannonEnt(dataSet): # Calculate the shannonEnt |
- Code - trees.py - 按给定特征划分数据集
1 | def splitDataSet(dataSet, axis, value): |
- Code - trees.py - 选择最优数据集划分特性
1 | def chooseBestFeatureToSplit(dataSet): |
- Code - trees.py - 选择该分类的代表种类
1 | def majorityCnt(classList): |
- Code - trees.py - 递归构建决策树
1 | def createTree(dataSet, labels): |
Matplotlib绘制树形图
绘制代码在treePlotter.py
使用决策树分类
使用构造好的决策树对输入样例进行分类。已建立好的决策树可以使用pickle保存在本地。
Code - trees.py - 分类函数
1 | def classify(inputTree, featLabels, testVec): |
- Code - trees.py - 保存和读取决策树
1 | def storeTree(inputTree, filename): |
- Shell - 构建隐形眼镜决策树
1 | >>> fr = open('lenses.txt') |
- 得到的决策树如下
ID3决策树总结
上述为ID3算法构造,通过熵度量信息增益。另一个度量集合无序程度的方法是基尼不纯度,从一个数据集中随机选取子项,度量其被错误分到其他分组里的概率。然而ID3构造出的决策树可能产生过度匹配问题,即叶子结点产生的匹配过多。可以通过裁剪决策树,合并相邻的无法产生大量信息增益的叶节点消除该问题。其他算法如C4.5和CART。k-近邻算法和ID3决策树都是结果确定的分类算法,数据实例最终会被明确划分到某个分类中。
Chapter 04 - 朴素贝叶斯
基于贝叶斯决策理论的分类,在数据较少的情况下依然有效,可以处理多类别问题,但对于输入数据的准备方式较为敏感。适用数据类型为标称型数据。对于待测数据X,Pi(x)表示X属于类别i的概率,取最高者作为最终类别。
条件概率和朴素贝叶斯决策
- 条件概率:在事件x的前提下发生事件c的概率为P(c|x),其计算公式为
P(c|x) = P(x|c)P(c)/P(x)
。 - 朴素贝叶斯分类器的两个假设:朴素即独立,指一个特征或者单词出现的可能性与其他特征没有关系;每个特征同等重要。
- 朴素贝叶斯的一般过程
- 收集数据
- 准备数据:标称型或布尔型数据
- 分析数据:有大量特征时可使用直方图
- 训练算法:计算不同的独立特征的条件概率
- 测试算法:计算错误率
- 使用算法
- 使用朴素贝叶斯进行文档分类:使用文档中的每个词作为特征并观察它们是否出现,假设每个特征需要N个样本,有M个特征就需要N^M个样本,若特征之间相互独立,则所需要的样本数为M*N个。对于一篇文章,计算出其对应的数据向量,计算这个向量所属各个类别的概率,并取最高者。
Python - 文本分类
以在线社区的留言板为例,屏蔽侮辱性的言论。通过统计文档中出现各个单词的数量,进行频率分析并确定待测留言是否属于侮辱性言论。
Code - 从文本构建词向量 - bayes.py
1 | def loadDataSet(): |
- Code - 从词向量计算概率 - bayes.py
1 | def trainNB0(trainMatrix, trainCategory): |
- Code - 计算最大概率 - bayes.py
1 | def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1): |
- Code - 测试分类函数 - bayes.py
1 | def testingNB(): |
- 文档词袋模型:在词集中,每个词出现一次和出现多次是等同的,在词袋模型中,单词出现次数对概率有影响。
1 | def bagOfWords2VecMN(vocabList, inputSet): # 多项式模型 |
过滤垃圾邮件
切分文本,并使用朴素贝叶斯交叉验证。将训练集中随机选择的文件从训练集中剔除,作为测试集,称为“留存交叉验证”。
Code - 文件解析 - bayes.py
1 | def textParse(bigString): |
- Code - 垃圾邮件测试 - bayes.py
1 | def spamTest(): |
从RSS个人广告中获取区域倾向
- 安装feedparser,从RSS源收集内容。从美国两个城市中选取一些人,通过分析这些人发布的征婚广告信息,比较两个城市的人在广告用词上是否不同。
- Code - RSS源分类器 - 高频词分类去除 - bayes.py
1 | def calcMostFreq(vocabList, fullText): # 计算出现频率 |
- 注释掉移除高频词的三行代码后,错误率为54%,保留这些代码错误率为70%。留言中出现次数最多的三十个词涵盖了所有用词的30%。通过下面的代码测试错误率。
1 | >>> import bayes |
- Code - 显示地域相关用词 - bayes.py
1 | def getTopWords(ny,sf): |
朴素贝叶斯总结
贝叶斯概率和准则提供了一种利用已知值来估计未知概率的有效方法。可以通过特征之间的条件独立性假设,降低对数据量的需求。下溢出问题可以通过对概率求对数解决,词袋模型在解决文档分类问题比词集模型有所提高。
参考文献: 《机器学习实战 - 美Peter Harrington》
原创作品,允许转载,转载时无需告知,但请务必以超链接形式标明文章原始出处(https://forec.github.io/2016/02/04/machinelearning1-4/) 、作者信息(Forec)和本声明。