我一直在学习Apache Jena教程,它们非常简单。我的问题是,如果我要在文本上进行数据挖掘,例如:对于教科书中的每个段落,我都会得到人们的姓名,位置,关键词等……使用本体将其转换为rdf的最简单方法是什么?
答案 0 :(得分:1)
假设您已经从文本中以字符串形式提取了实体(例如<人名>,<组织名称>,ModelFactory
创建模型,然后使用model.createResource(uri)
用资源填充模型,并使用.addProperty()
填充资源属性,如耶拿(Jena)示例和文档所示。这些示例还展示了如何在RDF中打印模型(遍历语句并使用stmt.getSubject()
,stmt.getPredicate()
和stmt.getObject()
。就本体论而言,您可以发明自己的模型或更可取的是,使用现有的词汇表,例如,假设您决定使用schema.org中的Person类,则需要将资源的rdf:type
指定为https://schema.org/Person
。 ,则可以使用该词汇表中的属性,例如https://schema.org/name
,该属性继承自https://schema.org/Thing
(因为所有内容都可以在schema.org docs中找到)。您不一定需要将本体放在模型或只要您使用URI来正确构造实例,这些URI可以从所使用的词汇表或本体中识别类和属性。如果确实有程序需求,则可以在模型中使用该词汇表,但是我认为您应该查看{ {3}}。