带有一个热编码列的Pyspark相关

时间:2018-09-07 09:50:36

标签: python apache-spark pyspark correlation one-hot-encoding

我是pyspark的新手。
我想计算一个column(int)与另一个column(vector from onehotencoder)之间的相关性。
我使用以下代码:

import six
for i in df.columns:
    if not(isinstance(df.select(i).take(1)[0][0], six.string_types)):
        print( "Correlation to label for", i, df.stat.corr('label',i))

当我计算一个hotencoder列的标签之间的相关性时,我得到了这个错误:

Py4JJavaError: An error occurred while calling o9219.corr. :
  java.lang.IllegalArgumentException:
    requirement failed:
      Currently correlation calculation for columns with dataType org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 not supported

0 个答案:

没有答案