可以在同一个分类器中使用多个ngram吗?

时间:2016-11-30 00:07:05

标签: nlp nltk sentiment-analysis n-gram

我是NLP的新手并且有一个非常简单的问题我希望被问到很多,但老实说无法找到任何地方:可以在同一个分类器中使用多种类型的ngram(例如unigrams +双字母组)?

我已经尝试过这样做了,至少对于Naive Bayes来说,它给我的精确度只比bigrams高(虽然低于unrams),但我不确定它是否是合法的练习。我所关注的一个问题是存在多重共线性的可能性,如果这甚至是一个适用的术语,即“运气”和“运气”都是如此。祝你好运'是最丰富的功能列表的顶部。

1 个答案:

答案 0 :(得分:0)

简短的回答是"是"。答案越长,你可以使用你想要的任何东西作为训练功能。但我怀疑你是使用原始的unigrams和bigrams作为你的功能。如果bigrams本身没有unigrams那么有用,那么你显然没有足够的训练数据来为你的应用程序做出有用的推论。添加一些具有更少可能性的更高级别的功能(例如,POS标签的二元组),因此更容易概括。