Pyspark创建具有系数和模型的模型。截距

时间:2018-02-12 11:32:45

标签: java pyspark

我想知道是否有可能构建模型(线性回归/逻辑回归仅与系数和截距)对于scikit-learn,事情顺利进行 - 我可以为模型设置这些变量并预测工作。 对于pyspark,我遇到了更多麻烦。我无法在scala中设置这些变量。由于模型将java_model作为参数,我尝试使用pyspark / py4j创建一个java_model并使用它来创建一个pyspark模型。

以下是我试图做的测试。

from pyspark import SparkContext, SQLContext
from pyspark.mllib.linalg import DenseVector

sc = SparkContext.getOrCreate()
sql_ctx = SQLContext(sc)
vect =  DenseVector([1.0, 2.0])
test = sc._jvm.org.apache.spark.ml.regression.LinearRegressionModel(vect, 1.0)

然后我收到此错误

AttributeError: 'numpy.ndarray' object has no attribute '_get_object_id'

似乎vect的self.array是ndarray,而py4j无法将其转换为java DenseVector。有没有人尝试过类似的尝试?

0 个答案:

没有答案