我正在使用spark ml,并希望从DataFrame的概率列中的模型获得概率值。
这有效:
proba_classe_0 = df.rdd.map(lambda row: row.probability[0])
但是它给了我rdd。 我知道ml是基于rdd的,而mllib现在是基于df的。 我尝试使用foreach:
df2.foreach(lambda r: r.probability[0])
但是它什么也没有回报。
我有两个问题:
代码:
proba_classe_1 = df.rdd.map(lambda row: row.probability[1])
truth = df.rdd.map(lambda row: row.label )
spark.createDataFrame(proba_classe_0)
TypeError: Can not infer schema for type: <class 'numpy.float64'>