PySpark中是否有一个等效于scikit-learn的sample_weight的参数?

时间:2019-07-09 09:48:13

标签: python scikit-learn pyspark apache-spark-mllib apache-spark-ml

我当前正在使用SGDClassifier库提供的scikit-learn。当我使用fit方法时,可以设置sample_weight参数:

  

权重应用于各个样本。如果未提供,请统一   假定重量。这些权重将乘以   class_weight(通过构造函数传递),如果class_weight为   指定

我想切换到PySpark并使用LogisticRegression类。无论如何,我找不到类似于sample_weight的参数。有一个weightCol参数,但我认为它的作用有所不同。

您有什么建议吗?

1 个答案:

答案 0 :(得分:0)

  

有一个weightCol参数,但我认为它有一些不同。

相反,Spark ML的weightCol确实做到了;来自docs(添加了重点):

  

weightCol = Param(parent ='undefined',name ='weightCol',doc ='weight column name。如果未设置或为空,我们将处理所有实例权重为1.0。')