如何处理关联数据中的数据质量问题

时间:2017-11-04 09:44:58

标签: rdf jena linked-data tdb

我最近一直在探索关联数据,并且我一个接一个地遇到问题。为了克服访问外部端点时的性能滞后,我想在本地存储数据转储。

但是,我遇到的数据集主要有问题。一个常见的是URI质量(例如,在Jena的TDB中导入错误:Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>

我该如何处理这个问题?有没有办法清理这些数据转储甚至删除有问题的三元组?

1 个答案:

答案 0 :(得分:0)

当URI不好时,那么使用文本工具处理输入文件是开始的方法。 N-Triples更易于使用。可能会在以后的处理中做更多的事情。

对于location ~ \.php$ {,将其替换为[space]将创建合法的URI,但它们是不同的URI。这对数据有什么影响取决于数据以及您想要用它做什么。就像删除不良三元组(另一个文本处理选项)一样,是否应该通过删除一些不良主题周围的所有三元组来清理数据取决于数据的形状。

另一件事是将问题报告回上游,以便可以在原点修复。