SPARQL查询从RDF数据中选择/构造最新修订

时间:2010-03-02 19:41:55

标签: rdf sparql

我有一个用于跟踪项目修订的RDF文件。使用此数据,我可以追溯项目生命周期内所做的更改。一旦特定的更改,相应的数据将被放置为新的修订版。看看..

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix mymeta: <http://www.mymeta.com/meta/> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .

<urn:ITEMID:12345> rdf:type mymeta:item .
<urn:ITEMID:12345> mymeta:itemchange <urn:ITEMID:12345:REV-1> .
<urn:ITEMID:12345:REV-1> dc:title "Product original name"@en .
<urn:ITEMID:12345:REV-1> dc:issued "2006-12-01"@en .
<urn:ITEMID:12345:REV-1> dc:format "4 x 6 x 1 in"@en .
<urn:ITEMID:12345:REV-1> dc:extent "200"@en .

<urn:ITEMID:12345> rdf:type mymeta:item .
<urn:ITEMID:12345> mymeta:itemchange <urn:ITEMID:12345:REV-2> .
<urn:ITEMID:12345:REV-2> dc:title "Improved Product Name"@en .
<urn:ITEMID:12345:REV-2> dc:issued "2007-06-01"@en .

根据这些数据,“2007-06-01”上有一个项目修订版,其中只有项目名称更改为“改进产品名称”。如您所见,最新数据修订版中缺少“dc:format”和“dc:extent”。这是为了避免数百万的重复记录!

我可以编写一个SPARQL查询,向我显示最新的产品修订信息(REV-2:dc:title和dc:已发布),但它缺少“dc:format”和“dc:extent”,我希望将其结转从上次修订版(REV-1)。

如何编写SPARQL查询来执行此操作?任何帮助非常感谢!

3 个答案:

答案 0 :(得分:2)

不确定您是否可以在一个查询中执行此操作。如果可以的话,我会更多地考虑它,但以下两个问题可能会让你开始朝着正确的方向前进:

1)查找没有格式的更改

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX mymeta: <http://www.mymeta.com/meta/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>

DESCRIBE ?change
WHERE 
{
    ?item a mymeta:item;
             mymeta:itemchange ?change.
    ?change ?p ?o.
    OPTIONAL 
    {
        ?change dc:format ?format .
    }
    FILTER (!bound(?format)) 
}

2)我认为这将找到具有格式的最早的变化

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX mymeta: <http://www.mymeta.com/meta/>
PREFIX dc: <http://purl.org/dc/elements/1.1/>

SELECT DISTINCT ?format
WHERE {
    ?item a mymeta:item;
             mymeta:itemchange ?change.
    ?change  dc:format ?format;
                  dc:issued ?issued.
    OPTIONAL {
        ?moreRecentItem a mymeta:item;
                ?moreRecentItem dc:issued ?moreRecentIssued.
        FILTER (?moreRecentIssued > ?issued)}
    FILTER (?bound (?moreRecentIssued))
}

通过更多的工作,应该可以将(2)的?格式限制为来自(1)的结果的发布数据之前的发布日期的那些更改。因此,对于(1)中的每一行,您执行(2)以查找要使用的格式值。如果使用基于规则的推理引擎而不是SPARQL,则可能会有更好的结果。我推荐EulerSharp或Pellet。

答案 1 :(得分:1)

对于单个项目,这是一个使用SPARQL 1.1子查询的非常简单的查询。诀窍是按日期对具有给定属性的修订进行排序,并从最新修订版中获取值。 values表单仅用于指定您选择的项目。如果您需要查询更多项目,可以在values块中添加它们。

prefix mymeta: <http://www.mymeta.com/meta/> 
prefix dc: <http://purl.org/dc/elements/1.1/> 

select ?item ?title ?format ?extent where {
  values ?item { <urn:ITEMID:12345> }

  #-- Get the title by examining all the revisions that specify a title, 
  #-- ordering them by date, and taking the latest one.  The same approach
  #-- is used for the format and extent.
  { select ?title { ?item mymeta:itemchange [ dc:title ?title ; dc:issued ?date ] . }
    order by desc(?date) limit 1 }

  { select ?format { ?item mymeta:itemchange [ dc:format ?format ; dc:issued ?date ] . }
    order by desc(?date) limit 1 }

  { select ?extent { ?item mymeta:itemchange [ dc:extent ?extent ; dc:issued ?date ] . }
    order by desc(?date) limit 1 }
}
$ sparql --data data.n3  --query query.rq
----------------------------------------------------------------------------------
| item               | title                      | format            | extent   |
==================================================================================
| <urn:ITEMID:12345> | "Improved Product Name"@en | "4 x 6 x 1 in"@en | "200"@en |
----------------------------------------------------------------------------------

如果您确实需要为所有项执行此操作,则可以使用其他子查询来选择项目。也就是说,使用:

而不是values ?item { ... }
{ select ?item { ?item a mymeta:item } }

虽然在原始问题中未提及,但它是come up in the comments,如果您对获取所有属性的最新属性值感兴趣,则可以使用如下的子查询,该子查询基于在How to limit SPARQL solution group size?

select ?item ?property ?value {
  values ?item { <urn:ITEMID:12345> }

  ?item mymeta:itemchange [ ?property ?value ; dc:issued ?date ]

  #-- This subquery finds the earliest date for each property in
  #-- the graph for each item.  Then, outside the subquery, we 
  #-- retrieve the particular value associated with that date.  
  {
    select ?property (max(?date_) as ?date) {
      ?item mymeta:itemchange [ ?property [] ; dc:issued ?date_ ]
    }
    group by ?item ?property
  }
}
---------------------------------------------------------------
| item               | property  | value                      |
===============================================================
| <urn:ITEMID:12345> | dc:issued | "2007-06-01"@en            |
| <urn:ITEMID:12345> | dc:title  | "Improved Product Name"@en |
| <urn:ITEMID:12345> | dc:extent | "200"@en                   |
| <urn:ITEMID:12345> | dc:format | "4 x 6 x 1 in"@en          |
---------------------------------------------------------------

答案 2 :(得分:-1)

我使用RDF Quads实现了这一点,将每个修订版存储在一个单独的命名图中,并使用一个众所周知的命名图来跟踪每个项的最新修订版以及所有修订版。

您的补丁算法的理论目前存在缺陷,因为您没有识别最新版本的方法,并且您无法轻松追溯修订版本以查找三次发生的最后时间。另外,如果你在最近的版本中找不到它,如果你总是试图回到以前的版本来获得三元组,你怎么知道三元组是否合法地删除?

RDF数据库应该能够通过仅存储文字和URI一次并使用指针来构造三元组或四元组来限制重复的数量。您可能能够在天真的情况下使其工作,为您保留的每个修订版存储所有内容。