可以使用除People,Org和Loc之外的Lingpipe提取通用实体吗?

时间:2011-09-24 09:54:00

标签: nlp machine-learning text-analysis named-entity-extraction

我已经阅读了Lingpipe的NLP,发现我们有能力识别人名,地点和组织的名称。我的问题是,如果我有一套训练文件,提到我们在文本中说软件项目,我可以使用这个训练集训练一个命名的实体识别器吗?培训完成后,我应该能够将一套测试文本文档提供给经过培训的模型,我应该能够识别那里的软件项目。

这种通用NER是否可以使用NER?如果是这样,我应该使用哪些功能,我应该提供?

由于 Abhishek S

2 个答案:

答案 0 :(得分:1)

只要您拥有足够的标记软件项目的培训数据即可。

如果使用Lingpipe,我会使用字符n-gram模型作为您的任务的第一个选项。它们很简单,通常可以完成工作。如果结果不够好,一些标准的NER功能是:

  • 令牌
  • 词性(POS)
  • 大写
  • punctuaction
  • 字符签名:这些是一些想法:(LUCENE - > AAAAAA - > A),(Lucene - > Aaaaaa - > Aa),(Lucene-core - > Aaaaa-aaaa - > Aa-a)
  • 如果你可以从维基百科,sourceforge或任何其他内部资源中获取,那么编写一个gazzeteer(软件项目列表)也可能很有用。

最后,对于每个令牌,您可以添加上下文功能,在当前令牌(t-1,t-2 ...)之前的令牌,当前一个令牌(t + 1,t + 2 ...)之后的令牌以及他们的二元组合(t-2 ^ t-1),(t + 1 ^ t + 2)。

答案 1 :(得分:0)

当然可以。只需获取所需类别的火车数据,然后按照教程http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html进行操作。 由于lingpipe仅使用硬编码(形状,序列字和ngramms),因此无需调整功能