annotations - 半自动注释工具 - 如何查找RDF三元组

时间：2012-04-28 21:44:41

标签： annotations rdf named-entity-recognition named-entity-extraction

我正在为医学文本开发一个半自动注释工具，我完全迷失了寻找注释的RDF三元组。

我目前正在尝试使用基于NLP的方法。我已经研究过Stanford NER和OpenNLP，他们都没有提取疾病名称的模型。

我的问题是： *如何创建新的NER模型来提取疾病名称？我可以从OpenNLP或Standford NER获得任何帮助吗？ *除了NLP之外还有另一种方法 - 从文本中提取RDF三元组吗？

任何帮助将不胜感激！感谢。

答案 0 :(得分：4)

我已经做了类似于OpenNLP和LingPipe所需的东西。我发现LingPipe的确切的基于字典的分块足够我的用例并使用它。此处提供的文档：http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

你可以在这里找到一个小型演示：

如果地名词典/词典方法不够好，您可以尝试创建自己的模型，OpenNLP也有训练模型的API。文档在这里：http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training

从自然语言中提取RDF三元组是一个与识别命名实体不同的问题。 NER是一个相关的，也许是必要的步骤，但还不够。要从自然语言中提取RDF语句，您不仅需要识别诸如主语和语句对象之类的实体。但是您还需要识别这些实体的动词和/或关系，还需要将它们映射到URI。