应用错误收集

时间：2019-10-13 09:29:09

标签： apache-spark apache-spark-sql parquet

我下载了20个不同市场中超过20,000种全球证券的当天收盘价。然后，我对这些证券运行20,000个专有交易设置，以实现有利可图的交易设置。该过程很简单，但是该过程需要云计算的力量才能实现自动化，因为它无法在桌面上运行。

我作为一个完整的初学者来使用此解决方案，所以请原谅我缺乏技术知识。

我将价格从单一来源下载到计算机上，并下载到Microsoft Excel文件中。
我是否使用Apache Arrow将excel文件传输到Apache Parquet？我之所以考虑使用Parquet是因为它是一种柱状存储解决方案，非常适合历史股价文件格式。
要运行我的20,000个专有交易设置，我将使用Apache Spark在所选的云环境中读取镶木地板文件。
这将每天产生高概率的交易结果，并将其上传到我基于Web的平台上。

根据我目前的研究非常简化的设置。谢谢您的提前帮助。

亲切的问候列维

答案 0 :(得分：0)

很抱歉，您没有设置大数据。

您正在做的只是使用一台计算机将excel文件转换为实木复合地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入，则似乎没有“大数据”。

您应该做的是：

使用Apache NiFi
使用spark从datalake读取数据。有关excel文件，请参见How to construct Dataframe from a Excel (xls,xlsx) file in Scala Spark?