我的大数据框架设置是否已完成,或者我错过了一些关键的事情?

时间:2019-10-13 09:29:09

标签: apache-spark apache-spark-sql parquet

我下载了20个不同市场中超过20,000种全球证券的当天收盘价。然后,我对这些证券运行20,000个专有交易设置,以实现有利可图的交易设置。该过程很简单,但是该过程需要云计算的力量才能实现自动化,因为它无法在桌面上运行。

我作为一个完整的初学者来使用此解决方案,所以请原谅我缺乏技术知识。

  1. 我将价格从单一来源下载到计算机上,并下载到Microsoft Excel文件中。
  2. 我是否使用Apache Arrow将excel文件传输到Apache Parquet?我之所以考虑使用Parquet是因为它是一种柱状存储解决方案,非常适合历史股价文件格式。
  3. 要运行我的20,000个专有交易设置,我将使用Apache Spark在所选的云环境中读取镶木地板文件。
  4. 这将每天产生高概率的交易结果,并将其上传到我基于Web的平台上。

根据我目前的研究非常简化的设置。谢谢您的提前帮助。

亲切的问候 列维

1 个答案:

答案 0 :(得分:0)

很抱歉,您没有设置大数据。

您正在做的只是使用一台计算机将excel文件转换为实木复合地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入,则似乎没有“大数据”。

您应该做的是:

  1. 使用Apache NiFi
  2. 之类的数据将数据放入数据湖
  3. 使用spark从datalake读取数据。有关excel文件,请参见How to construct Dataframe from a Excel (xls,xlsx) file in Scala Spark?