背景:我收到了很多有一些技术表达的文字,这些文字并不总是标准的。
我知道如何找到双胞胎并过滤它们。
现在,我想在对句子进行标记时使用它们。因此,应该保持在一起的词(根据计算的双字母组合)保持在一起。
我想知道在NLTK中是否有正确的方法。如果没有,我可以想到通过检查词典重新加入所有破碎词的各种非有效方法。
答案 0 :(得分:1)
主题建模者通常使用n-gram预处理文本的方式是他们通过下划线(例如,topic_modeling或white_house)连接它们。你可以在识别大公羊的时候这样做。并且不要忘记确保您的tokenizer不会被下划线拆分(如果没有明确设置token-regex,Mallet会这样做。)
P.S。 NLTK本地双桅轮搭配发现者超级慢 - 如果你想要一些更高效的环顾四周,如果你还没有,或者根据Dunning(1993)建立你自己的。