Apache Spark(scala)+ python / R工作流程用于数据分析

时间:2016-03-04 09:56:11

标签: apache-spark apache-spark-sql data-analysis bigdata

我想知道人们在使用这个堆栈进行数据分析时做了些什么。我对Spark Scala API特别感兴趣,因为它似乎有更新的功能,而且它对Spark来说更“自然”。

然而,一旦大数据被碾压和减少,我不确定数据可视化和探索方面的最佳实践。

例如,我在~2 Bn记录上运行Spark作业,现在我有一个Spark数据帧,包含大约10万条记录,其中包含一些结果,我希望在python或R中直方图,绘图并应用一些ML 。

实现这两个世界之间握手的最佳方式是什么?将结果保存到文件? (如果是这样,什么是最好的选择,镶木地板,avro,json,csv?)将它保存到数据库?

基本上我想知道其他人在使用类似堆栈时最容易找到的东西。

1 个答案:

答案 0 :(得分:2)

一旦数据在spark中被转换或压缩,您可以考虑以下内容来可视化数据。

Apache zeppelin用于交互式数据分析。

另一个选择是将Spark作业输出的结果存储在ElasticSearch中,我们可以使用Kibana进行可视化。