天蓝色

时间:2018-05-05 04:08:26

标签: azure apache-spark azure-data-lake

我们计划每天进行批处理。我们每天生成1 GB的CSV文件,并将手动将它们放入Azure Data Lake Store。我已阅读有关批处理的Microsoft Azure文档,我决定使用Spark进行批处理。我的问题是,在使用RDD / DF传输数据后,下一步是什么?我们如何可视化数据?因为这个过程应该每天运行,一旦使用Spark完成数据转换,我们是否需要将数据推送到任何类型的数据存储,如hive hdfs或cosmos,然后才能将其可视化?

1 个答案:

答案 0 :(得分:1)

在Azure上有几种选择。这实际上取决于您的要求(例如用户数量,所需的可视化等)。这样做的例子:

  • 在Azure Databricks上运行Spark,您可以使用Notebook功能可视化您的数据
  • 将HDInsight与Jupyter或Zeppelin笔记本一起使用
  • 在Azure Databricks上定义Spark表并使用Power BI
  • 对其进行可视化
  • 使用Azure Data Factory V2将数据加载到Azure SQL DB或Azure SQL数据仓库,并使用Power BI进行可视化。
  • 对于Time-Series-Data,您可以通过Spark将数据推送到Azure EventHubs(请参阅以下documentation中的带有Eventhubs Sink的示例笔记本)并通过Azure Time Series Insights使用它。如果您有EventData-Stream,这也可以在将来取代您的面向批处理的体系结构。 Azure Time Series Insights将使用Parquet文件作为长期存储(请参阅以下link)。对于Spark,我们还可以查看Time Series Package,它会增加一些时间序列功能。