现在我只是在数据集上训练DynamicLMClassifier并将我的文本分类。如何添加一个特征,以便分类器给某些单词更多权重,例如,如果这个句子包含“专业”,那很可能是在A类中? 或者如何根据段落而不是ngrams进行分类?
我注意到有一个featureextractor,但似乎没有参数。
答案 0 :(得分:0)
我会这样做作为评论,但我还没有特权。
DynamicLMClassifier不允许任意功能。一个是我们的LogisticRegression分类器,但它使用起来更复杂。一个好的起点是教程:
http://alias-i.com/lingpipe/demos/tutorial/logistic-regression/read-me.html
关于如何根据段落而不是ngrams进行分类的第二个问题有点不清楚。将整个段落用作单个特征可能会创建非常稀疏的数据。
Breck的