Python NLTK使用已经找到的bigrams标记文本

时间:2014-08-13 13:52:26

标签: python python-2.7 nlp nltk

背景:我收到了很多有一些技术表达的文字,这些文字并不总是标准的。

我知道如何找到双胞胎并过滤它们。

现在,我想在对句子进行标记时使用它们。因此,应该保持在一起的词(根据计算的双字母组合)保持在一起。

我想知道在NLTK中是否有正确的方法。如果没有,我可以想到通过检查词典重新加入所有破碎词的各种非有效方法。

1 个答案:

答案 0 :(得分:1)

主题建模者通常使用n-gram预处理文本的方式是他们通过下划线(例如,topic_modeling或white_house)连接它们。你可以在识别大公羊的时候这样做。并且不要忘记确保您的tokenizer不会被下划线拆分(如果没有明确设置token-regex,Mallet会这样做。)

P.S。 NLTK本地双桅轮搭配发现者超级慢 - 如果你想要一些更高效的环顾四周,如果你还没有,或者根据Dunning(1993)建立你自己的。