我正在对评论语料库进行分类,我想尝试将诸如可读性得分,音节数等特征与频率最高的k n-gram结合起来。我用python中的NLTK提取了前k个n-gram,我的第一种功能在字典中
{'readability':9, 'num-syllables':2}
我想知道是否有正确的方法来做到这一点?我当时正想将流行的n-gram插入字典中,如下所示:
{'readability':9, 'num-syllables':2, '('red', 'book')':True}
即使我已经读过有关在论文中使用最常见的n-gram的知识,我似乎也找不到在线实现。所以我不知道我是否正确地解释了“使用最多5000个频繁的n-gram”的想法。这是为NLTK或Sci-kit学习实施此方法的正确方法,还是我真的离基础很远?
谢谢