据我所知,live.dbpedia.org更接近dbpedia.org数据的实时版本,但这引发了一个问题,常规dbpedia提取/更新过程的运行频率是多少?数据转储的频率是多少?此外,据说除了从维基百科中提取的内容外,主要终端还包含其他数据集。
dbpedia.org,live.dbpedia.org和数据转储之间的数据有何不同?
答案 0 :(得分:4)
我为DBpedia做了一个关于项目的研究,我将分享我发现的内容:
http://dbpedia.org/sparql:此端点使用DBpedia Downloads 2014(WayBackMachineLink)中的大部分数据集。有关它正在使用的数据集的完整列表以及更多信息,请访问此站点:Datasets Loaded 2014(WayBackMachineLink)。那么下载频率有多快?请参阅下载的changelog。
http://live.dbpedia.org/sparql:此端点正在使用DBpedia live中的数据。如果您查看live changesets,您可以看到有时它至少每小时更新一次,有时像2014年9月一样只需每月更新一次。 DBpedia对此有所说:
问:DBpedia(变更集)的实时更新具有年/月/日/小时/ xxxx.nt.gz结构。如果两者之间存在一些差距,例如,这意味着什么?缺少一个小时的文件夹?
答:这意味着当时服务已经停止。
而DBpedia live - 3. new features(WayBackMachineLink)说:
5. 开发同步工具:同步工具使DBpedia Live镜像与我们的实时终端保持同步。它按顺序下载变更集文件,对其进行解压缩,并将它们与另一个DBpedia Live镜像集成。
因此,我认为如果您在应用变更集时与实时端点同步,则实时端点也会应用变更集。