我是pyspark的新手。
我想计算一个column(int)
与另一个column(vector from onehotencoder)
之间的相关性。
我使用以下代码:
import six
for i in df.columns:
if not(isinstance(df.select(i).take(1)[0][0], six.string_types)):
print( "Correlation to label for", i, df.stat.corr('label',i))
当我计算一个hotencoder列的标签之间的相关性时,我得到了这个错误:
Py4JJavaError: An error occurred while calling o9219.corr. :
java.lang.IllegalArgumentException:
requirement failed:
Currently correlation calculation for columns with dataType org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 not supported