nltk标记化和收缩

时间:2012-07-05 19:32:59

标签: python nlp nltk

我用nltk标记文本,只是将句子输入wordpunct_tokenizer。这会分裂收缩(例如'不要'到'不'+“'”+'t'),但我希望将它们保持为一个单词。我正在改进我的方法以获得更加精确和精确的文本标记化,因此我需要深入研究nltk标记化模块,而不仅仅是简单的标记化。

我猜这种情况很常见,我希望其他人可能不得不在此之前处理这个问题。

编辑:

是的,这是一个我知道的普遍的,泼溅的问题

另外,作为nlp的新手,我是否需要担心收缩?

编辑:

SExprTokenizer或TreeBankWordTokenizer似乎正在寻找我现在正在寻找的东西。

3 个答案:

答案 0 :(得分:9)

您使用哪种标记器实际取决于您下一步要做什么。正如检查员G4dget所说,一些词性标注器处理分裂收缩,在这种情况下,拆分是一件好事。但也许这不是你想要的。要确定哪个标记化程序最佳,请考虑下一步所需的内容,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记生成器的行为。

答案 1 :(得分:1)

我曾在this project之前与NLTK合作过。当我这样做时,我发现收缩是有用的。

但是,我没有写自定义标记器,我只是在标记POS标记后处理它。

我怀疑这不是你要找的答案,但我希望它有所帮助

答案 2 :(得分:1)

因为收缩的次数非常少,所以一种方法是搜索并替换完全等效的所有收缩(例如:“不要”到“不要”),然后将更新的句子输入到wordpunct_tokenizer。