你的位置:首页 > 软件开发 > 数据库 > 集算器协助java处理多样性数据源之HDFS

集算器协助java处理多样性数据源之HDFS

发布时间:2016-01-19 10:00:07
Java通过Hadoop提供的API访问HDFS不算困难,但针对其上文件的计算就比较麻烦。比如分组、过滤、排序等计算,用java来实现都比较复杂。集算器esproc能很好地协助java解决计算问题,同时也封装了HDFS的访问,借助esproc可以让java加强HDFS上文件的计算 ...

集算器协助java处理多样性数据源之HDFS

    Java通过Hadoop提供的API访问HDFS不算困难,但针对其上文件的计算就比较麻烦。比如分组、过滤、排序等计算,用java来实现都比较复杂。集算器esproc能很好地协助java解决计算问题,同时也封装了HDFS的访问,借助esproc可以让java加强HDFS上文件的计算能力,结构化半结构化数据计算都可以轻松完成。下面我们通过例子来看一下具体作法。

    HDFS中的文本文件employee.gz中保存了员工数据。我们要读取员工信息,从中找出1981年1月1日(含)之后出生的女员工。文本文件在HDFS中以gzip方式压缩,并且无法一次装入内存。

    文本文件empolyee.gz的数据如下:

    EID NAME SURNAME GENDER STATE BIRTHDAY HIREDATE DEPT SALARY

原标题:集算器协助java处理多样性数据源之HDFS

关键词:JAVA

*特别声明:以上内容来自于网络收集,著作权属原作者所有,如有侵权,请联系我们: admin#shaoqun.com (#换成@)。