我正在为医学文本开发一个半自动注释工具,我完全迷失了寻找注释的RDF三元组。
我目前正在尝试使用基于NLP的方法。我已经研究过Stanford NER和OpenNLP,他们都没有提取疾病名称的模型。
我的问题是: *如何创建新的NER模型来提取疾病名称?我可以从OpenNLP或Standford NER获得任何帮助吗? *除了NLP之外还有另一种方法 - 从文本中提取RDF三元组吗?
任何帮助将不胜感激!感谢。
答案 0 :(得分:4)
我已经做了类似于OpenNLP和LingPipe所需的东西。 我发现LingPipe的确切的基于字典的分块足够我的用例并使用它。此处提供的文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
你可以在这里找到一个小型演示:
如果地名词典/词典方法不够好,您可以尝试创建自己的模型,OpenNLP也有训练模型的API。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training
从自然语言中提取RDF三元组是一个与识别命名实体不同的问题。 NER是一个相关的,也许是必要的步骤,但还不够。要从自然语言中提取RDF语句,您不仅需要识别诸如主语和语句对象之类的实体。但是您还需要识别这些实体的动词和/或关系,还需要将它们映射到URI。