使用spark

时间:2018-05-10 05:58:20

标签: azure apache-spark nosql time-series powerbi

我正在开发一个每天产生40-50 Gbs时间序列数据的项目。

Phase   Time (UTC) Sensor   Voltage (Vrms)  Current (Arms)  Real Power (kW) Reactive Power (kVAr)   

A   30/11/2017 0:00 1   242.049 94.7869 22.6874 3.4158  
B   30/11/2017 0:00 2   242.648 58.2347 13.9256 2.39754 
C   30/11/2017 0:00 3   243.448 74.8243 17.0897 6.30549 
A   30/11/2017 0:10 1   241.358 93.3049 22.2974 3.15765 

我们以平面文件的形式接收这些数据,并使用azure数据工厂将它们上传到数据湖中。

在整个过程中,数据需要使用spark进行处理,并使用Power BI或任何其他可视化工具进行可视化。

我们可以随机访问+频繁的并发查询,我听说不适合Spark。

我很困惑,选择最好的工具来创建这个管道。我可能有两种选择:

选项1:

  1. 从CSV文件加载数据
  2. 清理数据
  3. 写入qarquet文件)
  4. 从拼花文件中加载数据

  5. 分析

  6. 传递给权力BI

    选项2:

    • 从CSV文件加载数据

    • 清理数据

    • 写入任何nosql或时间序列nosql数据库

    • 从db加载数据,使用sparksql或?????进行分析

    • 将其传递给BI

  7. 或其他任何选项都应该考虑?

0 个答案:

没有答案