你的位置:首页 > 数据库

[数据库]大数据环境下,关联规则面临的新挑战。


    随着互联网、信息技术以及云计算的高速发展,当今社会已进入了海量数据的时代。不管是移动通信、电商金融还是物联网等各个领域,每天都会产生巨量的各种不同类型的数据。如何从这些庞大的、结构各异的、而又掺杂着大量噪声的数据中提取出隐含在其中的具有一定意义的知识或规则,正是关联规则提取的研究内容。

    传统的关联规则提取算法具有本身的局限性,例如算法认为数据库中的数据具有相同的重要性,又如基于特定的平台运算效率低等。因此在多源异构的大数据时代,关联规则的提取算法面临着新的挑战。

(1)数据信息量庞大并不一定代表着蕴含了同等体量的数据价值,相反这常常表明了数据包含的无用信息或结构过多。所以在进行数据分析之前往往需要对源数据进

行数据选择、数据转换等进行清洗的预处理操作。包括对脏数据(遗失或者错误的数据)的处理,筛选目标项等。

(2)大数据环境下,算法应该根据使用的数据分析平台记进行调整调整。一方面是存储分片问题,一方面是负载均衡问题。尽管像Hadoop这样的综合平台,在数据量极大的情况下,也会出现问题。

 (3)数据分析结果好坏的衡量。在大数据时代下,提取出数据挖掘的结果也并不是最主要的挑战,如何衡量分析结果的好坏才是真正的难点。结果是否解决了用户的问题,是否为决策做出了很好的辅助,都需要进行评价。

     解决上述问题之一:利用 Hadoop 集群实现经典算法的并行化。

    文献有对Apriori算法在Hadoop下进行并行优化的,也有对FP—growth算法进行优化的,也有的学者将概念分层的思想应用到算法的改进中。