答案 0 :(得分:1)
大数据平台(Hadoop)与传统数据库之间的根本区别在于大数据平台在读取时应用模式 - 而我们在传统数据库中预先定义模式。因此,在传统数据库中,我们只能插入适合已知模式的数据。 Hadoop at it core是一个名为HDFS的文件系统,使用map-reduce算法在文件系统上进行分布式计算。通常我们不会问,将文件复制到您的计算机上需要做些什么准备。您首先复制它 - 原样 - 因为我们正在复制到NTFS,FAT,HFSX,ZFS等文件系统。类似地,HDFS是一个文件系统。像Hive这样的工具为您提供了Hadoop的SQL接口。但是,在引擎盖下,Hive正在获取原始文件并在读取时应用模式。由于处理速度快且分布均匀,因此这不是问题。这就是为什么 - 我们通常不会将Hadoop用于实时事务处理系统。
虽然您可以执行除删除之外的大多数转换,但通常您不应该在基于Hadoop的系统中进行大量转换。您提供原始数据并使用Hive等工具或编写自己的map-reduce代码来访问它。它们在访问时运行。因此,您所做的预处理水平应该相对较小。
您可以在Hadoop上使用多个可视化工具来绘制您正在寻找的那种图。
有关更多分析算法 - 请参阅apache mahout。 http://mahout.apache.org/users/basics/algorithms.html
答案 1 :(得分:0)
您可以根据您想要使用的平台执行所有这些操作。大数据是一个非常大的术语,并且有大量的框架可用于提供大数据的计算和可视化。因此,对您的问题的回答将取决于您想要使用的平台。
答案 2 :(得分:0)
对于数据准备,您可以使用Hive。 对于其他一切,我建议你使用SparkR。有许多功能,库可以帮助您使用单变量(缺失值和异常值处理)和双变量分析。您可以绘制图形,并执行回归分析。 R是为统计计算而构建的,使用Spark你可以在BigData上做同样的事情。 关于速度,它很快:) 你可以在这里阅读SparkR https://rpubs.com/wendyu/sparkr