Question

我想运行带有数千个具有各种组合的CSV文件的ARIMA模型

使用Pyflux 这是一些python代码..

index =0
#filename has file names of thousands of files
for csvfile in filenames:
data = pd.read_csv(csvfile)
model = pf.ARIMA(data=data,ar=4,ma=4,integ=0,target='sunspot.year')
x = model.fit("MLE")

list_of_results[index] = list_of_tuples[index] + (x.summary(),)

index++

我可以在Big Query中加载这些CSV，并希望将这种将数据发送到ARIMA模型的操作并行化，因为通过ARIMA模型运行数据的操作可以并行运行这些文件或BigQuery结果我可以节省大量时间用于此操作。

有没有办法在Google数据流中实现这一目标？

Answer 1

如果所有CSV文件都在GCS上，您应该能够创建一个从GCS读取它们的简单管道，并在每个元素上并行运行您的模型。

请参阅ParDo上的文档，以便并行处理所有元素：https://cloud.google.com/dataflow/model/par-do

使用Google Data Flow并行化循环操作

1 个答案: