NLP:文本

时间:2016-01-26 15:43:02

标签: python nlp nltk stanford-nlp named-entity-recognition

我正在尝试提出一些规则来检测命名实体,特别是文本中的公司或组织名称。我认为专注于动词是有道理的。有很多POS Taggers可以轻松检测专有名词。我个人喜欢StanfordPOSTagger。现在,一旦我有了专有名词,我知道它是一个命名实体。但是,为了确定它是公司的名称,我需要提出规则,可能Gazetteers

我在考虑专注于动词。公司名称周围是否有一组常见的动词?

我可以创建一个带注释的语料库并明确训练机器学习分类器来预测这些动词,但这是很多工作。如果有人已就此进行过一些研究,那就太好了。

此外,其他一些POS标签可以提供线索吗?不只是动词。

2 个答案:

答案 0 :(得分:3)

动词方法似乎最有希望。我一直在做一些事情来识别民间故事中的众生。在此处详细了解我的方法:http://www.aaai.org/ocs/index.php/INT/INT7/paper/viewFile/9253/9204 您可能仍需要做一些注释和培训,或使用网络文本和下面的方法来查找培训数据。

如果你正在寻找真正的公司(即非虚构的),那么我建议你只提取引用表达式(即名词和多词表达式),然后检查一个在线数据库(一些易于使用) API)像:

答案 1 :(得分:0)

Stanford NER system是否符合此用例?它已经检测到组织,以及人员和其他命名实体类型。