应用错误收集

时间：2011-09-24 09:54:00

标签： nlp machine-learning text-analysis named-entity-extraction

我已经阅读了Lingpipe的NLP，发现我们有能力识别人名，地点和组织的名称。我的问题是，如果我有一套训练文件，提到我们在文本中说软件项目，我可以使用这个训练集训练一个命名的实体识别器吗？培训完成后，我应该能够将一套测试文本文档提供给经过培训的模型，我应该能够识别那里的软件项目。

这种通用NER是否可以使用NER？如果是这样，我应该使用哪些功能，我应该提供？

由于 Abhishek S

答案 0 :(得分：1)

只要您拥有足够的标记软件项目的培训数据即可。

如果使用Lingpipe，我会使用字符n-gram模型作为您的任务的第一个选项。它们很简单，通常可以完成工作。如果结果不够好，一些标准的NER功能是：

令牌
词性（POS）
大写
punctuaction
字符签名：这些是一些想法：（LUCENE - > AAAAAA - > A），（Lucene - ＆gt; Aaaaaa - ＆gt; Aa），（Lucene-core - ＆gt; Aaaaa-aaaa - ＆gt; Aa-a）
如果你可以从维基百科，sourceforge或任何其他内部资源中获取，那么编写一个gazzeteer（软件项目列表）也可能很有用。

最后，对于每个令牌，您可以添加上下文功能，在当前令牌（t-1，t-2 ...）之前的令牌，当前一个令牌（t + 1，t + 2 ...）之后的令牌以及他们的二元组合（t-2 ^ t-1），（t + 1 ^ t + 2）。

答案 1 :(得分：0)

当然可以。只需获取所需类别的火车数据，然后按照教程http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html进行操作。由于lingpipe仅使用硬编码（形状，序列字和ngramms），因此无需调整功能