我当前正在使用SGDClassifier
库提供的scikit-learn
。当我使用fit
方法时,可以设置sample_weight
参数:
权重应用于各个样本。如果未提供,请统一 假定重量。这些权重将乘以 class_weight(通过构造函数传递),如果class_weight为 指定
我想切换到PySpark并使用LogisticRegression
类。无论如何,我找不到类似于sample_weight
的参数。有一个weightCol
参数,但我认为它的作用有所不同。
您有什么建议吗?
答案 0 :(得分:0)
有一个
weightCol
参数,但我认为它有一些不同。
相反,Spark ML的weightCol
确实做到了;来自docs(添加了重点):
weightCol
= Param(parent ='undefined',name ='weightCol',doc ='weight column name。如果未设置或为空,我们将处理所有实例权重为1.0。')