HDFS 组织及工作
Apache Hadoop 是一款支持数据密集型分布式应用程序并以 Apache 2.0 许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop 是根据谷歌公司发表的 MapReduce 和 Google 文件系统的论文自行实现而成。所有的 Hadoop 模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
Apache Hadoop 是一款支持数据密集型分布式应用程序并以 Apache 2.0 许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop 是根据谷歌公司发表的 MapReduce 和 Google 文件系统的论文自行实现而成。所有的 Hadoop 模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
Generate network based on co-occurrence was proposed several decades ago, however, it still occupies most of papers talking about network discovering. Here I want to give a simple introduction for network capture by conventional co-occurrence methods. The following contents are slightly related with the basis of my current work, they are out of date but still useful sometimes.
复杂网络是复杂系统的抽象,其中一个重要特征是网络中所呈现出的社区结构。许多网络是异构的,对于构成网络的不同类型节点所组成的子图称为网络中的社区。整理了几个传统的社区发现算法流程和大致原理,记录备忘。
从数据中提取一些关键信息可以使用奇异值分解(Singular Value Decomposition,SVD),可以简化数据,去除噪声,将数据映射到低维空间。
FP-growth算法基于Apriori构建,先将数据集存储在FP树内,再发现频繁项集,速度通常快于Apriori两个数量级以上。FP-growth只需要对数据库扫描两次,而Apriori需要对每个潜在的频繁项集扫描一次数据集。Apriori算法拓展性更好,可以用于并行计算。
商店通过会员卡等忠诚度计划,可以获取顾客所购买商品的组合信息,从而更好地安排商品定价、市场促销等。从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。Apriori算法可以解决计算代价极高的物品组合问题,从而在合理的时间范围内找到频繁项集和关联规则。
聚类是一种无监督学习,将相似的对象归到同一个簇中,类似全自动分类,即类别体系也是自动构建的。聚类方法几乎可以应用于所有对性,簇内的对象越相似,聚类效果越好。K-均值聚类算法可以发现k个不同的簇,且每个簇的中心采用簇中所含值的均值构成。聚类与分类的区别在于,分类的目标事先已知,而聚类未知。