我想知道是否有可能构建模型(线性回归/逻辑回归仅与系数和截距)对于scikit-learn,事情顺利进行 - 我可以为模型设置这些变量并预测工作。 对于pyspark,我遇到了更多麻烦。我无法在scala中设置这些变量。由于模型将java_model作为参数,我尝试使用pyspark / py4j创建一个java_model并使用它来创建一个pyspark模型。
以下是我试图做的测试。
from pyspark import SparkContext, SQLContext
from pyspark.mllib.linalg import DenseVector
sc = SparkContext.getOrCreate()
sql_ctx = SQLContext(sc)
vect = DenseVector([1.0, 2.0])
test = sc._jvm.org.apache.spark.ml.regression.LinearRegressionModel(vect, 1.0)
然后我收到此错误
AttributeError: 'numpy.ndarray' object has no attribute '_get_object_id'
似乎vect的self.array是ndarray,而py4j无法将其转换为java DenseVector。有没有人尝试过类似的尝试?