你的位置:首页 > 数据库

[数据库]Hadoop基础知识


《原创,仅供学习交流》

在关联规则的研究中,有很多串行的算法,经典的是Apriori算法和FP_growth算法。也有很多并行算法,

如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、FDM和 FMAGF等。

串行算法的瓶颈之一是挖掘效率慢,而并行算法解决了挖掘效率的问题,但是由于并行计算是由很多计算节点组成,存在节点失效、负载不易均衡带来的问题。

因此,Hadoop的出现,是大数据时代进行数据挖掘的一大利器。

Hadoop是一个分布式基础架构,可以在不了解分布式底层细节的情况下,开发分布式或并行应用程序,充分利用集群的威力高速运算和存储,它也是云计算的主要架构之一. Hadoop 具有以下特点:

1) 扩 容 能 力: 能可靠地存储和处理PB级别数据。数据级别前面有总结。(存储优势)

2) 成本低: 可以通过普通计算机组成的集群来分布处理数据。(分布在各个Map上)

3) 高效率: 通过分发数据,Hadoop 可以并行地的处理数据,这使得处理非常的快速。(并行)

4) 可靠性:Hadoop 能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。(有效处理节点失效和节点负载均衡方面问题)

因此,基于Hadoop平台的并行数据挖掘是一个很好的途径。一是基于Hadoop对经典的串行关联规则算法进行改进,朝并行的方向努力。而是基于Hadoop对经典的并行关联挖掘算法进行改进,因为基于Hadoop比单独开发并行运行的挖掘程序简单许多。

为的是使算法更好的与平台结合,达到更好的数据挖掘效果。

文献有 CD算法的并行化,Apriori算法的并行化以及FP-growth算法的并行化。(后续学习各个详细的优化并行算法)

展开学习:(数据结构和算法,Hadoop基础和高级编程,R语言基础)