应用错误收集

我正在对评论语料库进行分类，我想尝试将诸如可读性得分，音节数等特征与频率最高的k n-gram结合起来。我用python中的NLTK提取了前k个n-gram，我的第一种功能在字典中

{'readability':9, 'num-syllables':2}

我想知道是否有正确的方法来做到这一点？我当时正想将流行的n-gram插入字典中，如下所示：

{'readability':9, 'num-syllables':2, '('red', 'book')':True}

即使我已经读过有关在论文中使用最常见的n-gram的知识，我似乎也找不到在线实现。所以我不知道我是否正确地解释了“使用最多5000个频繁的n-gram”的想法。这是为NLTK或Sci-kit学习实施此方法的正确方法，还是我真的离基础很远？

谢谢