我在2016年1月使用jena框架作为项目的一部分在DBpedia上运行查询,以计算100部电影的不同属性。我昨天写了报告所以我试图确认结果,但令人惊讶的是他们已经改变了。 1月份,我有100多个属性,昨天我有63个。我使用相同的查询同样的一切!
我甚至在1月份保存了我的硬盘中的属性标签列表,确认有100多个。我检查了它们是否仍然用于描述DBpedia上的电影资源,我发现其中很多都不是。我还看了一下他们网站的更改日志,这是我发现的唯一可能与页面(http://wiki.dbpedia.org/dbpedia-version-2016-04)相关的内容:
你认为这是原因吗,或者你对此有何解释?我们现在从Raw Infobox Extractor过滤出三元组 已映射。例如。不再是“dbo:birthPlace”和“ dbp:birthPlace | dbp:placeOfBirth | ...“在同一资源中。这些 三元组现在被移动到“信息框属性映射”数据集和 未加载在主端点上。有关详细信息,请参阅问题22。
我使用的查询:
select (count(distinct ?pr) AS ?count) where {
?su ?pr ?ob .
select ?su{
?su a <http://schema.org/Movie> .
}
limit 100
}
感谢。
答案 0 :(得分:2)
上周发布了一个新的DBpedia版本,因此,公共端点仅包含最新的数据集。
我认为对于数据中的所有更改,更改日志都不完整。当然,您提到的评论会减少单个资源的属性数量,但如果没有查看您的查询,我就无法说出任何其他内容。
如果您确实需要旧数据,您仍然可以下载转储并将其加载到本地三重商店。
答案 1 :(得分:1)
请注意,无论您使用的是基于HTTP的SPARQL端点,Jena / Java / JDBC,ODBC还是其他方式,公共服务的资源限制(查询超时,结果行数等)都适用。
另外,我很确定你现在没有使用查询,因为它使用了无效的语法。
所有这些,您可以尝试正确的查询
(最后肯定尚未使用新的DBpedia数据集进行更新,但可能在任何时候,所以采用免责声明将符合您的最佳利益。例如,“这是可公开编辑的,生活数据集,由不断发展的代码库从维基百科中提取,因此结果可能(并且将会随时间而变化)。“)