你的位置:首页 > 数据库

[数据库]企业级大数据处理方案03

数据处理过程分为数据挖掘和数据分析,广义上说数据分析泛指整个过程,然而数据分析大的流程大致相同,如图:

数据挖掘一般都要经过过滤、漂洗、匹配三个过程:

1.过滤:主要将数据中的不适合分析的数据过滤掉,就好比产品流水线的残次品一样,对数据进行组粒度的过滤,其规则可按数据大小,字符长短;

2.漂洗:也称格式化,对数据进行分块,数据也有组成的,有时间、数据源、数据体等等,就好比头、身体、脚一样。将数据变成我们想要的格式,此过程也是打标签的过程,意将数据分类处理。

3.匹配:匹配就是抽取字段,将数据中的有用的地方抽取出来。(正则处理)由于数据的分类太多,无法完成所有的数据的匹配,这就需要机器自动识别。注意机器学习的结果并不精准,是故数据分开存储。

数据挖掘的过程也就是无格式数据和半格式化数据的格式化过程,换言之就是讲数据规则化。

数据挖掘过程结束后,就是数据分析阶段,其过程如图: