我正在开发一个每天产生40-50 Gbs时间序列数据的项目。
Phase Time (UTC) Sensor Voltage (Vrms) Current (Arms) Real Power (kW) Reactive Power (kVAr)
A 30/11/2017 0:00 1 242.049 94.7869 22.6874 3.4158
B 30/11/2017 0:00 2 242.648 58.2347 13.9256 2.39754
C 30/11/2017 0:00 3 243.448 74.8243 17.0897 6.30549
A 30/11/2017 0:10 1 241.358 93.3049 22.2974 3.15765
我们以平面文件的形式接收这些数据,并使用azure数据工厂将它们上传到数据湖中。
在整个过程中,数据需要使用spark进行处理,并使用Power BI或任何其他可视化工具进行可视化。
我们可以随机访问+频繁的并发查询,我听说不适合Spark。
我很困惑,选择最好的工具来创建这个管道。我可能有两种选择:
选项1:
从拼花文件中加载数据
分析
传递给权力BI
选项2:
从CSV文件加载数据
清理数据
写入任何nosql或时间序列nosql数据库
从db加载数据,使用sparksql或?????进行分析
将其传递给BI
或其他任何选项都应该考虑?