大数据中的EDA

时间:2014-06-17 05:34:07

标签: hadoop dataset histogram bigdata outliers

  1. 可以对大数据执行哪些数据准备操作?例如:合并,汇总,转置,附加 - 所有这一切都可以在Hadoop上完成吗?
  2. 可以进行所有数据处理吗?我们可以对大数据进行单变量和双变量分析吗?需要多长时间?数据处理如 - 缺失值处理,异常值处理。在离群值处理中 - 使用的最重要的方法是什么 - IQR,Percentile等?
  3. 我们可以对大数据进行Box绘图,运行序列图等吗?
  4. 我们可以绘制直方图吗?
  5. 我们可以在大数据上绘制自相关图,单位根图,白噪声图等吗?

3 个答案:

答案 0 :(得分:1)

大数据平台(Hadoop)与传统数据库之间的根本区别在于大数据平台在读取时应用模式 - 而我们在传统数据库中预先定义模式。因此,在传统数据库中,我们只能插入适合已知模式的数据。 Hadoop at it core是一个名为HDFS的文件系统,使用map-reduce算法在文件系统上进行分布式计算。通常我们不会问,将文件复制到您的计算机上需要做些什么准备。您首先复制它 - 原样 - 因为我们正在复制到NTFS,FAT,HFSX,ZFS等文件系统。类似地,HDFS是一个文件系统。像Hive这样的工具为您提供了Hadoop的SQL接口。但是,在引擎盖下,Hive正在获取原始文件并在读取时应用模式。由于处理速度快且分布均匀,因此这不是问题。这就是为什么 - 我们通常不会将Hadoop用于实时事务处理系统。

虽然您可以执行除删除之外的大多数转换,但通常您不应该在基于Hadoop的系统中进行大量转换。您提供原始数据并使用Hive等工具或编写自己的map-reduce代码来访问它。它们在访问时运行。因此,您所做的预处理水平应该相对较小。

您可以在Hadoop上使用多个可视化工具来绘制您正在寻找的那种图。

有关更多分析算法 - 请参阅apache mahout。 http://mahout.apache.org/users/basics/algorithms.html

答案 1 :(得分:0)

您可以根据您想要使用的平台执行所有这些操作。大数据是一个非常大的术语,并且有大量的框架可用于提供大数据的计算和可视化。因此,对您的问题的回答将取决于您想要使用的平台。

答案 2 :(得分:0)

对于数据准备,您可以使用Hive。 对于其他一切,我建议你使用SparkR。有许多功能,库可以帮助您使用单变量(缺失值和异常值处理)和双变量分析。您可以绘制图形,并执行回归分析。 R是为统计计算而构建的,使用Spark你可以在BigData上做同样的事情。 关于速度,它很快:) 你可以在这里阅读SparkR https://rpubs.com/wendyu/sparkr