Spark:100种股票的日内数据结构,可有效计算每只股票的移动平均线等

时间:2015-11-11 12:48:45

标签: scala apache-spark moving-average

我是Spark的新手,需要做一项任务,我将使用随机森林预测股价方向。

为此,我需要计算某些功能,例如Moving Average。我已经使用wholeTextFiles读入了我的数据(包含6列的100个csv文件:时间,打开,关闭,高,低,音量)。所以现在我有一个文件名和内容的RDD。为了能够计算关闭列的移动平均值,转换此RDD的最有效方法是什么?我应该为每只股票制作RDD还是应该使用DataFrame或......?

提前感谢您提供的任何帮助!

代码段:

#!/usr/bin/env python
from subprocess import Popen, PIPE

p = Popen(["grep", r"controller\|worker", file_name], stdout=PIPE)
output = p.communicate()[0]
if p.returncode == 0:
    print('found')
elif p.returncode == 1:
    print('not found')
else: 
    print('error')

}

0 个答案:

没有答案