我是NLP的新手并且有一个非常简单的问题我希望被问到很多,但老实说无法找到任何地方:可以在同一个分类器中使用多种类型的ngram(例如unigrams +双字母组)?
我已经尝试过这样做了,至少对于Naive Bayes来说,它给我的精确度只比bigrams高(虽然低于unrams),但我不确定它是否是合法的练习。我所关注的一个问题是存在多重共线性的可能性,如果这甚至是一个适用的术语,即“运气”和“运气”都是如此。祝你好运'是最丰富的功能列表的顶部。
答案 0 :(得分:0)
简短的回答是"是"。答案越长,你可以使用你想要的任何东西作为训练功能。但我怀疑你是使用原始的unigrams和bigrams作为你的功能。如果bigrams本身没有unigrams那么有用,那么你显然没有足够的训练数据来为你的应用程序做出有用的推论。添加一些具有更少可能性的更高级别的功能(例如,POS标签的二元组),因此更容易概括。