将常见的n-gram特征与字典特征相结合

时间:2019-12-06 13:16:13

标签: python machine-learning nlp nltk

我正在对评论语料库进行分类,我想尝试将诸如可读性得分,音节数等特征与频率最高的k n-gram结合起来。我用python中的NLTK提取了前k个n-gram,我的第一种功能在字典中

{'readability':9, 'num-syllables':2}

我想知道是否有正确的方法来做到这一点?我当时正想将流行的n-gram插入字典中,如下所示:

{'readability':9, 'num-syllables':2, '('red', 'book')':True}

即使我已经读过有关在论文中使用最常见的n-gram的知识,我似乎也找不到在线实现。所以我不知道我是否正确地解释了“使用最多5000个频繁的n-gram”的想法。这是为NLTK或Sci-kit学习实施此方法的正确方法,还是我真的离基础很远?

谢谢

0 个答案:

没有答案