我想使用SPARQL查询从DBPedia端点提取所有Subject / Predicate / Object,其中Predicate是一个日期/时间prooperty。
我尝试从Dump解析DBPedia的信息框属性,并使用this查询过滤语句。但是有很多对象没有正确的日期/时间格式(如公元前200年......)。
如何查询转储文件或DBPedia的端点以解析所有有效的基于日期/时间的语句?
答案 0 :(得分:4)
前面问题的答案显示了如何检索具有给定数据类型的属性。使用该属性可以很容易地扩展它以获取语句。该查询绑定?p
;现在只需将?s ?p ?o
添加到查询中。 E.g:
select ?s ?p ?o where {
?p a owl:DatatypeProperty ;
rdfs:range xsd:date .
?s ?p ?o .
}
limit 100
请注意DBpedia 3.8 Downloads页面对“原始信息框属性”和“本体信息框属性”数据集的说明:
原始信息框属性
从维基百科信息框中提取的信息。注意 此数据位于较不干净的/ property / namespace中。本体论 应始终首选信息框属性(/本体/命名空间) 对这些数据。
Ontology Infobox Properties
使用基于本体的信息框从信息框中提取的高质量数据 萃取。此数据集中的谓词位于/本体/ 命名空间。以前用于称为基于映射的属性 版本。
请注意,此数据的质量远远高于Raw Infobox / property / namespace中的属性。例如,有三个 不同的原始维基百科信息框属性的出生日期 人。在/ ontology / namespace中,它们都映射到一个 关系 http://dbpedia.org/ontology/birthDate。这是一个强项 DBpedia统一这些关系。
如果您最终从“Raw Infobox Properties”数据集中获取奇怪的数据值,那就不足为奇了。你应该真的使用“Ontology Infobox Properties”。