应用错误收集

nltk标记化和收缩

时间：2012-07-05 19:32:59

标签： python nlp nltk

我用nltk标记文本，只是将句子输入wordpunct_tokenizer。这会分裂收缩（例如'不要'到'不'+“'”+'t'），但我希望将它们保持为一个单词。我正在改进我的方法以获得更加精确和精确的文本标记化，因此我需要深入研究nltk标记化模块，而不仅仅是简单的标记化。

我猜这种情况很常见，我希望其他人可能不得不在此之前处理这个问题。

编辑：

是的，这是一个我知道的普遍的，泼溅的问题

另外，作为nlp的新手，我是否需要担心收缩？

编辑：

SExprTokenizer或TreeBankWordTokenizer似乎正在寻找我现在正在寻找的东西。

3 个答案:

答案 0 :(得分：9)

您使用哪种标记器实际取决于您下一步要做什么。正如检查员G4dget所说，一些词性标注器处理分裂收缩，在这种情况下，拆分是一件好事。但也许这不是你想要的。要确定哪个标记化程序最佳，请考虑下一步所需的内容，然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记生成器的行为。

答案 1 :(得分：1)

我曾在this project之前与NLTK合作过。当我这样做时，我发现收缩是有用的。

但是，我没有写自定义标记器，我只是在标记POS标记后处理它。

我怀疑这不是你要找的答案，但我希望它有所帮助

答案 2 :(得分：1)

因为收缩的次数非常少，所以一种方法是搜索并替换完全等效的所有收缩（例如：“不要”到“不要”），然后将更新的句子输入到wordpunct_tokenizer。