应用错误收集

大数据中的EDA

时间：2014-06-17 05:34:07

标签： hadoop dataset histogram bigdata outliers

可以对大数据执行哪些数据准备操作？例如：合并，汇总，转置，附加 - 所有这一切都可以在Hadoop上完成吗？
可以进行所有数据处理吗？我们可以对大数据进行单变量和双变量分析吗？需要多长时间？数据处理如 - 缺失值处理，异常值处理。在离群值处理中 - 使用的最重要的方法是什么 - IQR，Percentile等？
我们可以对大数据进行Box绘图，运行序列图等吗？
我们可以绘制直方图吗？
我们可以在大数据上绘制自相关图，单位根图，白噪声图等吗？

3 个答案:

答案 0 :(得分：1)

大数据平台（Hadoop）与传统数据库之间的根本区别在于大数据平台在读取时应用模式 - 而我们在传统数据库中预先定义模式。因此，在传统数据库中，我们只能插入适合已知模式的数据。 Hadoop at it core是一个名为HDFS的文件系统，使用map-reduce算法在文件系统上进行分布式计算。通常我们不会问，将文件复制到您的计算机上需要做些什么准备。您首先复制它 - 原样 - 因为我们正在复制到NTFS，FAT，HFSX，ZFS等文件系统。类似地，HDFS是一个文件系统。像Hive这样的工具为您提供了Hadoop的SQL接口。但是，在引擎盖下，Hive正在获取原始文件并在读取时应用模式。由于处理速度快且分布均匀，因此这不是问题。这就是为什么 - 我们通常不会将Hadoop用于实时事务处理系统。

虽然您可以执行除删除之外的大多数转换，但通常您不应该在基于Hadoop的系统中进行大量转换。您提供原始数据并使用Hive等工具或编写自己的map-reduce代码来访问它。它们在访问时运行。因此，您所做的预处理水平应该相对较小。

您可以在Hadoop上使用多个可视化工具来绘制您正在寻找的那种图。

有关更多分析算法 - 请参阅apache mahout。 http://mahout.apache.org/users/basics/algorithms.html

答案 1 :(得分：0)

您可以根据您想要使用的平台执行所有这些操作。大数据是一个非常大的术语，并且有大量的框架可用于提供大数据的计算和可视化。因此，对您的问题的回答将取决于您想要使用的平台。

答案 2 :(得分：0)

对于数据准备，您可以使用Hive。对于其他一切，我建议你使用SparkR。有许多功能，库可以帮助您使用单变量（缺失值和异常值处理）和双变量分析。您可以绘制图形，并执行回归分析。 R是为统计计算而构建的，使用Spark你可以在BigData上做同样的事情。关于速度，它很快:) 你可以在这里阅读SparkR https://rpubs.com/wendyu/sparkr