你的位置:首页 > 数据库

[数据库]大数据分析(一)探索性分析


  最近,大数据风靡一时,也成为我们码农热捧的技术。大家疯狂的搭配hadoop环境,翻看各种hadoop技术的书,浏览hadoop、hive、storm等技术。过了一段时间,当我们想用这些技术对数据练习的时候。面对从网上下来了测试数据,要么束手无策,要么不管三七二十一就来一个统计回归模型。

  我们对大数据以及大数据分析完全没有头绪,我们甚至对大数据技术产生了迷茫,产生了退缩。

  当我们拿到数据应该怎么做呢,如果不知道怎么做,那就先进行探索性分析吧。

  分析数据可以分为探索和验证两个阶段。探索性数据分析(Exploratory Data Analysis,以下简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。

  探索性分析一般表现为直方图和茎叶图。探索性数据分析的基本工具是图、制表和汇总统计量。一般来说,探索性数据分析是一种系统性分析数据的方法,它展示了所有变量的分布情况、时间序列数据和变换变量,利用散列矩阵图展示了变量两两之间的关系,并且得到了所有的汇总统计量。换句话说,就是要计算均值、最大值、最小值、上下四分位数和确定异常值。

  说了那么多,那就来个例子吧。并给出R语言和spss实现。

     附件的数据共有5列,分别为:年龄、性别、广告次数、点击次数和是否登录。

R语言的实现:

 1 root="F:/dds_datasets/dds_ch2_nyt/" 2 setwd(root) 3 file<-paste(root,"nyt1.csv",sep="") 4 nytdata<-read.csv(file) 5 head(nytdata) 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf)) 7 summary(nytdata) 8  9 install.packages("doBy")10 library("doBy")11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)14 ##先画出直方图图15 16 install.packages("ggplot2")17 library("ggplot2")18 19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()

View Code

 分析结果如下:

spss实现比较简单,通过向导导入数据,选择 分析-数据描述-探索就行了。

我也是码农中的一员,大数据对我来讲我也是初学者,前段时间开始学习R语言,感兴趣的同仁可以进来互相交流。

 不知道在哪可以传附件,晕了。。。。。。。有需要数据的请联系我。