我已经阅读了Lingpipe的NLP,发现我们有能力识别人名,地点和组织的名称。我的问题是,如果我有一套训练文件,提到我们在文本中说软件项目,我可以使用这个训练集训练一个命名的实体识别器吗?培训完成后,我应该能够将一套测试文本文档提供给经过培训的模型,我应该能够识别那里的软件项目。
这种通用NER是否可以使用NER?如果是这样,我应该使用哪些功能,我应该提供?
由于 Abhishek S
答案 0 :(得分:1)
只要您拥有足够的标记软件项目的培训数据即可。
如果使用Lingpipe,我会使用字符n-gram模型作为您的任务的第一个选项。它们很简单,通常可以完成工作。如果结果不够好,一些标准的NER功能是:
最后,对于每个令牌,您可以添加上下文功能,在当前令牌(t-1,t-2 ...)之前的令牌,当前一个令牌(t + 1,t + 2 ...)之后的令牌以及他们的二元组合(t-2 ^ t-1),(t + 1 ^ t + 2)。
答案 1 :(得分:0)
当然可以。只需获取所需类别的火车数据,然后按照教程http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html进行操作。 由于lingpipe仅使用硬编码(形状,序列字和ngramms),因此无需调整功能