使用Python从个人Gazetter命名实体识别

时间:2011-02-22 22:07:55

标签: python nlp nltk named-entity-recognition

我尝试使用NLTK在python中进行命名实体识别。 我想提取个人技能清单。 我有技能清单,并希望在申请中搜索并标记技能。 我注意到NLTK的预定标签有人物,位置等的NER标签。 我可以使用Python中的外部gazetter标记器吗? 任何想法如何比搜索术语更复杂(有时多词术语)?

谢谢, 阿萨弗

2 个答案:

答案 0 :(得分:1)

我最近没有使用过NLTK,但是如果你知道的是技能,你就不需要做NER-只需要进行文本搜索。

也许使用Lucene或其他搜索库来查找文本,然后对其进行注释?这是很多工作,但如果你正在使用可能没问题的大量数据。或者,您可以将正则表达式搜索混合在一起,这种搜索速度较慢,但​​对于较少量的数据可能正常工作,并且更容易实现。

答案 1 :(得分:1)

看看RegexpTagger并最终RegexpParser,我认为这正是您所寻找的。

您可以创建自己的POS标签,即。将技能映射到标签,然后轻松定义语法。

标记器的一些示例代码是in this pdf