我是Spark的新手,需要做一项任务,我将使用随机森林预测股价方向。
为此,我需要计算某些功能,例如Moving Average。我已经使用wholeTextFiles读入了我的数据(包含6列的100个csv文件:时间,打开,关闭,高,低,音量)。所以现在我有一个文件名和内容的RDD。为了能够计算关闭列的移动平均值,转换此RDD的最有效方法是什么?我应该为每只股票制作RDD还是应该使用DataFrame或......?
提前感谢您提供的任何帮助!
代码段:
#!/usr/bin/env python
from subprocess import Popen, PIPE
p = Popen(["grep", r"controller\|worker", file_name], stdout=PIPE)
output = p.communicate()[0]
if p.returncode == 0:
print('found')
elif p.returncode == 1:
print('not found')
else:
print('error')
}