如何将数据帧的列转换为numpy数组?

时间:2018-10-24 17:55:18

标签: apache-spark pyspark

我想使用PySpark运行回归线。

我有以下RDD:

<script src = "js/jquery-1.8.3.min.js"></script> //your jquery version

<script>
$(document).ready(function(){
     $('input[name=wrist]').on('change', function() {
         var _sel = $(this);
         $('span.unit').find('em').text(_sel.parent().text());
    })
});
</script>

我将RDD转换为数据帧:

WeightHeight = CleanData.map(lambda x: (float(x[2]) , float(x[3])))

现在,我想获取数据帧的每一列,并将其转换为两个不同的numpy数组x和y。

我尝试过

df = WeightHeight.toDF(["x","y"])

x = np.array(df.select('x'))

但是当我将其运行到我创建的用于确定回归线系数的函数(slope_intercept(x,y))中时,出现“列对象不可调用”错误。

关于如何解决它的任何想法?

谢谢!

此处是创建的函数。我已经用较小的值(例如x = [1,2,3,4,5,6,7]和y = [10,20,30,30,30,40,50])进行了测试,并且可以正常工作。

x = np.array(df['x'])

0 个答案:

没有答案