DBpedia结果随时间而变化

时间:2016-10-18 10:14:12

标签: sparql rdf semantic-web dbpedia linked-data

我在2016年1月使用jena框架作为项目的一部分在DBpedia上运行查询,以计算100部电影的不同属性。我昨天写了报告所以我试图确认结果,但令人惊讶的是他们已经改变了。 1月份,我有100多个属性,昨天我有63个。我使用相同的查询同样的一切!

我甚至在1月份保存了我的硬盘中的属性标签列表,确认有100多个。我检查了它们是否仍然用于描述DBpedia上的电影资源,我发现其中很多都不是。我还看了一下他们网站的更改日志,这是我发现的唯一可能与页面(http://wiki.dbpedia.org/dbpedia-version-2016-04)相关的内容:

  

我们现在从Raw Infobox Extractor过滤出三元组   已映射。例如。不再是“dbo:birthPlace”和“   dbp:birthPlace | dbp:placeOfBirth | ...“在同一资源中。这些   三元组现在被移动到“信息框属性映射”数据集和   未加载在主端点上。有关详细信息,请参阅问题22。

你认为这是原因吗,或者你对此有何解释?

我使用的查询:

select (count(distinct ?pr) AS ?count) where {
    ?su ?pr ?ob .
        select ?su{
        ?su a <http://schema.org/Movie> .
        }
    limit 100

}

感谢。

2 个答案:

答案 0 :(得分:2)

上周发布了一个新的DBpedia版本,因此,公共端点仅包含最新的数据集。

我认为对于数据中的所有更改,更改日志都不完整。当然,您提到的评论会减少单个资源的属性数量,但如果没有查看您的查询,我就无法说出任何其他内容。

如果您确实需要旧数据,您仍然可以下载转储并将其加载到本地三重商店。

答案 1 :(得分:1)

请注意,无论您使用的是基于HTTP的SPARQL端点,Jena / Java / JDBC,ODBC还是其他方式,公共服务的资源限制(查询超时,结果行数等)都适用。

另外,我很确定你现在没有使用查询,因为它使用了无效的语法。

所有这些,您可以尝试正确的查询

(最后肯定尚未使用新的DBpedia数据集进行更新,但可能在任何时候,所以采用免责声明将符合您的最佳利益。例如,“这是可公开编辑的,生活数据集,由不断发展的代码库从维基百科中提取,因此结果可能(并且将会随时间而变化)。“)