如何减少n-gram功能?

时间:2017-01-31 13:52:01

标签: machine-learning nlp text-processing sentiment-analysis n-gram

我一直在处理文本处理中的问题。如果有人能帮助我,我将不胜感激。 我有数据集,包含12,000条评论记录。 当我在这上面运行n-gram提取器时,我获得了170,000个独特的unigram + bigram,它是如此之多,以至于需要很长时间才能通过机器学习算法进行处理。

我应该如何减少这些提取的功能的数量?是否有任何特殊的算法或什么?

1 个答案:

答案 0 :(得分:3)

没有必要保留所有的N-grrams。您应该按频率修剪N-gram列表。例如,只考虑发生40次或更多次的unigrams。修剪bi-gram的截止值会降低。对于三克等等,它会更低等等。