我尝试使用NLTK在python中进行命名实体识别。 我想提取个人技能清单。 我有技能清单,并希望在申请中搜索并标记技能。 我注意到NLTK的预定标签有人物,位置等的NER标签。 我可以使用Python中的外部gazetter标记器吗? 任何想法如何比搜索术语更复杂(有时多词术语)?
谢谢, 阿萨弗
答案 0 :(得分:1)
我最近没有使用过NLTK,但是如果你知道的是技能,你就不需要做NER-只需要进行文本搜索。
也许使用Lucene或其他搜索库来查找文本,然后对其进行注释?这是很多工作,但如果你正在使用可能没问题的大量数据。或者,您可以将正则表达式搜索混合在一起,这种搜索速度较慢,但对于较少量的数据可能正常工作,并且更容易实现。
答案 1 :(得分:1)
看看RegexpTagger并最终RegexpParser,我认为这正是您所寻找的。 p>
您可以创建自己的POS标签,即。将技能映射到标签,然后轻松定义语法。
标记器的一些示例代码是in this pdf。