使用Google Data Flow并行化循环操作

时间:2017-03-07 14:32:10

标签: python apache google-bigquery google-cloud-dataflow apache-beam

我想运行带有数千个具有各种组合的CSV文件的ARIMA模型

使用Pyflux 这是一些python代码..

index =0
#filename has file names of thousands of files
for csvfile in filenames:
data = pd.read_csv(csvfile)
model = pf.ARIMA(data=data,ar=4,ma=4,integ=0,target='sunspot.year')
x = model.fit("MLE")

list_of_results[index] = list_of_tuples[index] + (x.summary(),)

index++

我可以在Big Query中加载这些CSV,并希望将这种将数据发送到ARIMA模型的操作并行化,因为通过ARIMA模型运行数据的操作可以并行运行这些文件或BigQuery结果我可以节省大量时间用于此操作。

有没有办法在Google数据流中实现这一目标?

1 个答案:

答案 0 :(得分:0)

如果所有CSV文件都在GCS上,您应该能够创建一个从GCS读取它们的简单管道,并在每个元素上并行运行您的模型。

请参阅ParDo上的文档,以便并行处理所有元素:https://cloud.google.com/dataflow/model/par-do