应用错误收集

时间：2014-08-13 13:52:26

标签： python python-2.7 nlp nltk

背景：我收到了很多有一些技术表达的文字，这些文字并不总是标准的。

我知道如何找到双胞胎并过滤它们。

现在，我想在对句子进行标记时使用它们。因此，应该保持在一起的词（根据计算的双字母组合）保持在一起。

我想知道在NLTK中是否有正确的方法。如果没有，我可以想到通过检查词典重新加入所有破碎词的各种非有效方法。

答案 0 :(得分：1)

主题建模者通常使用n-gram预处理文本的方式是他们通过下划线（例如，topic_modeling或white_house）连接它们。你可以在识别大公羊的时候这样做。并且不要忘记确保您的tokenizer不会被下划线拆分（如果没有明确设置token-regex，Mallet会这样做。）

P.S。 NLTK本地双桅轮搭配发现者超级慢 - 如果你想要一些更高效的环顾四周，如果你还没有，或者根据Dunning（1993）建立你自己的。