我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将它们放入Azure Data Lake Store。我已阅读有关批处理的Microsoft Azure文档,我决定使用Spark进行批处理。我的问题是,在使用RDD / DF传输数据后,下一步是什么?我们如何可视化数据?因为这个过程应该每天运行,一旦使用Spark完成数据转换,我们是否需要将数据推送到任何类型的数据存储,如hive hdfs或cosmos,然后才能将其可视化?
答案 0 :(得分:1)
在Azure上有几种选择。这实际上取决于您的要求(例如用户数量,所需的可视化等)。这样做的例子: