Hadoop基础知识

发布时间：2016-09-05 15:00:04

《原创，仅供学习交流》在关联规则的研究中，有很多串行的算法，经典的是Apriori算法和FP_growth算法。也有很多并行算法，如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distrib ...

《原创，仅供学习交流》

在关联规则的研究中，有很多串行的算法，经典的是Apriori算法和FP_growth算法。也有很多并行算法，

如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、FDM和 FMAGF等。

串行算法的瓶颈之一是挖掘效率慢，而并行算法解决了挖掘效率的问题，但是由于并行计算是由很多计算节点组成，存在节点失效、负载不易均衡带来的问题。

因此，Hadoop的出现，是大数据时代进行数据挖掘的一大利器。

Hadoop是一个分布式基础架构，可以在不了解分布式底层细节的情况下，开发分布式或并行应用程序，充分利用集群的威力高速运算和存储，它也是云计算的主要架构之一． Hadoop 具有以下特点:

1) 扩容能力: 能可靠地存储和处理PB级别数据。数据级别前面有总结。（存储优势）

2) 成本低: 可以通过普通计算机组成的集群来分布处理数据。（分布在各个Map上）

3) 高效率: 通过分发数据，Hadoop 可以并行地的处理数据，这使得处理非常的快速。（并行）

4) 可靠性：Hadoop 能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。（有效处理节点失效和节点负载均衡方面问题）

因此，基于Hadoop平台的并行数据挖掘是一个很好的途径。一是基于Hadoop对经典的串行关联规则算法进行改进，朝并行的方向努力。而是基于Hadoop对经典的并行关联挖掘算法进行改进，因为基于Hadoop比单独开发并行运行的挖掘程序简单许多。

为的是使算法更好的与平台结合，达到更好的数据挖掘效果。

文献有 CD算法的并行化，Apriori算法的并行化以及FP-growth算法的并行化。（后续学习各个详细的优化并行算法）

展开学习：（数据结构和算法，Hadoop基础和高级编程，R语言基础）

原标题：Hadoop基础知识

关键词：

*特别声明：以上内容来自于网络收集，著作权属原作者所有，如有侵权，请联系我们： admin#shaoqun.com （#换成@）。

可能感兴趣文章