在NLP中识别专有名词的策略

时间:2009-03-03 23:56:45

标签: nlp named-entity-recognition part-of-speech

我有兴趣了解更多有关Natural Language Processing(NLP)的内容,并且好奇目前是否有任何策略可以识别不基于字典识别的文本中的专有名词?此外,任何人都可以解释或链接到解释当前基于字典的方法的资源吗?谁是NLP的权威专家,或者关于这个主题的权威资源是什么?

8 个答案:

答案 0 :(得分:11)

确定文本中某个单词的正确词性的任务称为Part of Speech Tagging。例如,Brill tagger使用字典(词汇)单词和上下文规则的混合。我相信这个任务的一些重要的初始词典单词是停用词。 一旦你的话语(大部分是正确的)词性,你就可以开始构建更大的结构。 This industry-oriented book区分识别名词短语(NP)和识别命名实体。 关于教科书:Allen's Natural Language Understanding是一本很好但有点过时的书。 Foundations of Statistical Natural Language Processing是统计NLP的一个很好的介绍。 Speech and Language Processing更加严谨,可能更具权威性。 The Association for Computational Linguistics是计算语言学领域的领先科学界。

答案 1 :(得分:6)

除了基于字典的方法外,我还想到了另外两种方法:

  • 基于模式的方法(以简单的形式:大写的任何东西都是专有名词)
  • 机器学习方法(在训练语料库中标记专有名词并训练分类器)

该字段主要称为命名实体提取,通常被视为信息提取的子字段。 NLP的不同领域的良好起点通常是Oxford Handbook of Computational Linguistics中的相应章节:

Oxford Handbook of Computational Linguistics
(来源:oup.com

答案 2 :(得分:4)

尝试搜索“命名实体识别” - 这是NLP文献中用于此类事物的术语。

答案 3 :(得分:2)

这取决于您基于字典的含义。

例如,一种策略是在词典中采用的内容并尝试继续假设它们是专有名词。如果这导致了合理的解析,请考虑暂时验证的假设并继续进行,否则结论是它们不是。

其他想法:

  • 在主题位置,任何没有确定者的简单主题都是一个很好的候选人。
  • 介词短语中的同上
  • 在任何位置,占有决定者的基础(例如“鲍勃的姐姐”中的鲍勃)都是一个好的候选人

- MarkusQ

答案 4 :(得分:0)

一些工具包建议: 1. Opennlp:您的任务有一个命名实体识别组件 2. LingPipe:也是它的NER组件 3.斯坦福NLP套餐:学术用途的优秀套餐,可能不是商业友好。 4. nltk:Python NLP包

答案 5 :(得分:0)

如果您有“谁是比尔门”这样的句子 如果您将词性标注器应用于它。 它会给出答案

“谁/ WP是/ VBZ bill / NN gate / NNS?/。”

你可以在线试试这个 http://cst.dk/online/pos_tagger/uk/

所以你得到这句话中的所有名词。现在,您可以使用某种算法轻松提取此名词。如果您使用自然语言处理,我建议使用python。它有NLTK(自然语言工具包),您可以使用它。

答案 6 :(得分:0)

如果您对自然语言处理的实现感兴趣并且python是您的编程语言,那么这可以是一个信息丰富的资源:http://www.youtube.com/watch?v=kKe4M4iSclc

答案 7 :(得分:0)

虽然这是针对孟加拉语的,但它可以绘制一个识别专有名词的通用程序。所以我希望这对你有所帮助。 请查看以下链接: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html