在我的Spark应用程序中,我使用NaiveBayesModel进行文本文档分类。假设我的模型如下:
class SomeDocument {
String text;
String lead;
}
我目前的方法是将包括text
和lead
在内的整个文档标记化,并将每个标记视为特征。这没有遵循业务规则,业务规则在分类中比lead
更重要。换句话说,我需要为令牌设置权重,权重值必须取决于来源(text
的{{1}})。
我使用方法lead
训练模型。
问题:如何设置特征的权重?