我想使用PySpark运行回归线。
我有以下RDD:
<script src = "js/jquery-1.8.3.min.js"></script> //your jquery version
<script>
$(document).ready(function(){
$('input[name=wrist]').on('change', function() {
var _sel = $(this);
$('span.unit').find('em').text(_sel.parent().text());
})
});
</script>
我将RDD转换为数据帧:
WeightHeight = CleanData.map(lambda x: (float(x[2]) , float(x[3])))
现在,我想获取数据帧的每一列,并将其转换为两个不同的numpy数组x和y。
我尝试过
df = WeightHeight.toDF(["x","y"])
或
x = np.array(df.select('x'))
但是当我将其运行到我创建的用于确定回归线系数的函数(slope_intercept(x,y))中时,出现“列对象不可调用”错误。
关于如何解决它的任何想法?
谢谢!
此处是创建的函数。我已经用较小的值(例如x = [1,2,3,4,5,6,7]和y = [10,20,30,30,30,40,50])进行了测试,并且可以正常工作。>
x = np.array(df['x'])