我用nltk标记文本,只是将句子输入wordpunct_tokenizer。这会分裂收缩(例如'不要'到'不'+“'”+'t'),但我希望将它们保持为一个单词。我正在改进我的方法以获得更加精确和精确的文本标记化,因此我需要深入研究nltk标记化模块,而不仅仅是简单的标记化。
我猜这种情况很常见,我希望其他人可能不得不在此之前处理这个问题。
编辑:
是的,这是一个我知道的普遍的,泼溅的问题
另外,作为nlp的新手,我是否需要担心收缩?
编辑:
SExprTokenizer或TreeBankWordTokenizer似乎正在寻找我现在正在寻找的东西。
答案 0 :(得分:9)
您使用哪种标记器实际取决于您下一步要做什么。正如检查员G4dget所说,一些词性标注器处理分裂收缩,在这种情况下,拆分是一件好事。但也许这不是你想要的。要确定哪个标记化程序最佳,请考虑下一步所需的内容,然后将文本提交到http://text-processing.com/demo/tokenize/以查看每个NLTK标记生成器的行为。
答案 1 :(得分:1)
答案 2 :(得分:1)
因为收缩的次数非常少,所以一种方法是搜索并替换完全等效的所有收缩(例如:“不要”到“不要”),然后将更新的句子输入到wordpunct_tokenizer。