我想运行带有数千个具有各种组合的CSV文件的ARIMA模型
使用Pyflux 这是一些python代码..
index =0
#filename has file names of thousands of files
for csvfile in filenames:
data = pd.read_csv(csvfile)
model = pf.ARIMA(data=data,ar=4,ma=4,integ=0,target='sunspot.year')
x = model.fit("MLE")
list_of_results[index] = list_of_tuples[index] + (x.summary(),)
index++
我可以在Big Query中加载这些CSV,并希望将这种将数据发送到ARIMA模型的操作并行化,因为通过ARIMA模型运行数据的操作可以并行运行这些文件或BigQuery结果我可以节省大量时间用于此操作。
有没有办法在Google数据流中实现这一目标?
答案 0 :(得分:0)
如果所有CSV文件都在GCS上,您应该能够创建一个从GCS读取它们的简单管道,并在每个元素上并行运行您的模型。
请参阅ParDo
上的文档,以便并行处理所有元素:https://cloud.google.com/dataflow/model/par-do