python:nlp:扩展英语收缩,比如不是那样的

时间:2014-07-16 18:57:09

标签: python nlp nltk text-analysis

我正在尝试一些预处理,因此像dont之类的单词等等,只是为了让它的算法运行得更好。我检查了nltk并没有找到方便的东西。我可以使用粗略的查找方法,但问题将是与Jon等的专有名词一起使用的问题。请建议

早先的问题 Expanding English language contractions in Python

没有合适的名词使用的好答案

2 个答案:

答案 0 :(得分:2)

答案 1 :(得分:2)

我不得不在一个相关的NLP项目上研究这个问题,我决定解决这个问题,因为这里似乎没有任何东西。如果您有兴趣,可以查看我的expander github repository

它使用POS标记和命名实体识别(NER)来处理基本扩展之外的名词。还包括一个消除歧义的功能来处理更难的情况,例如's'等。 NER标记是这里必不可少的部分。它识别任何名称的名词,然后我用代词替换它来分析语法上下文并在适当的时候扩展它。

运行句子需要很长时间,但这是我如何解决这个问题的方法,并且在代码中包含的测试用例上运行得相当好。

有关详细信息,请查看旧问题的the other answer或github存储库中的直接。