好的,这似乎是一个非常基本的问题,但由于某种原因,我无法弄清楚这一点。我有来自here的DBpedia 2014 owl文件。现在当我在Protégé中加载它并查看Ontology metrics选项卡时,我看到类计数为814,对象属性计数为1310,数据属性计数为1725.这是正确的数字吗?出于好奇,我试图检查Virtuoso端点上的数字和查询
select ?p (count(?p) as ?totalCount) where {?s ?p ?o } group by ?p order by DESC(?totalCount)
即。试图找到属性和它们在图表中出现的总次数,我发现总数是10,000。现在我不确定这是否是检查属性及其在图表中出现次数的正确方法。
发布此查询时的类:
SELECT ?class
WHERE {
?class rdf:type rdfs:Class.
}
我根本没有得到任何结果。现在使用Virtuoso中的默认查询,即
Select count(distinct ?Concept) where {[] a ?Concept}
我的值为369857.所以我有点困惑。这是一个很大的数字,因为图表有来自yago,umbel,schema.org和purl的概念,或者我是否正在错误地看待它?这些概念与类完全不同吗? (解释不同,我没有想过)。
老实说,我得到了这些数字,因为我需要它们来计算这个paper中定义的选择性
这里说对于三重模式,主题的选择性是1/R
,其中R是资源的数量,那么资源是指类计数还是概念计数?或count of ?s
中的?s ?p ?o
。三重模式?
答案 0 :(得分:2)
DBpedia本体仅包含具有命名空间http://dbpedia.org/ontology
的类和属性的公理。
DBpedia SPARQL端点包含更多数据:
首先,它包含具有名称空间http://dbpedia.org/property
的属性的三元组。这些属性是无类型的(即rdf:Property
类型,实际上这意味着该值既可以是资源也可以是文字。在OWL中我们有类型属性,即对象和数据属性。
加载到SPARQL端点的其他信息包括指向外部数据集(如YAGO)或上层本体UMBEL的链接。您可以在[1],[2]找到更多详细信息。
顺便说一下,您可以从第一个查询中轻松查看。还有更多具有不同命名空间的属性。
根据您的第一个查询:如果您想要每个属性的三元组数,这是正确的查询。它仅返回10000,因为这是加载DBpedia的Virtuoso三重商店的默认结果集限制。要获得更多结果,您必须使用分页。可以使用
找到三元组中使用的属性总数SELECT (COUNT(DISTINCT ?p) AS ?cnt)
WHERE
{ ?s ?p ?o}
您对类型rdf:Class
的所有类的第二个查询都不会返回任何内容,因为DBpedia中没有类属于该类型。查询OWL本体类型owl:Class
的类更常见。实际上,第三个查询返回在对象位置rdf:type
三元组中发生的所有资源,这在实例数据上有所不同。这意味着它将返回数据中真正使用的所有类。
关于你的上一个问题。我没有读过这篇论文,但许多研究论文中的一个常见指标往往是使用使用特定属性的不同主题。