如何以编程方式从Wikidata实体获取所有可用信息?

时间:2016-08-11 22:14:40

标签: sparql dbpedia wikidata wikidata-api

我对wikidata很新。我只是觉得wikidata使用了大量的具体化。

假设我们希望获得奥巴马的所有信息。如果我们要从DBpedia那里做,我们只会使用一个简单的查询: select * where {<http://dbpedia.org/resource/Barack_Obama> ?p ?o .}这将以奥巴马为主题返回所有属性和价值观。基本上结果与此页面相同:http://dbpedia.org/page/Barack_Obama,而查询结果采用我需要的格式。

我想知道如何用维基数据做同样的事情。这是奥巴马的维基数据页面:https://www.wikidata.org/wiki/Q76。假设我想要此页面上的所有陈述。但是这个页面上几乎所有的陈述都具体化,因为它们有排名和限定词等。例如,对于“受过教育的”部分,它不仅有学校,还有“开始时间”和“结束时间”。由于奥巴马不再在这些学校,因此所有学校都被评为正常。

我可以通过获得真实的陈述(使用https://query.wikidata.org)来获得所有学校:

SELECT ?school ?schoolLabel WHERE {
wd:Q76 wdt:P69 ?school .
   SERVICE wikibase:label {
    bd:serviceParam wikibase:language "en" .
   }
 }

上述查询将简单地返回所有学校。

如果我想得到学校的开始时间和结束时间,我需要这样做:

SELECT ?school ?schoolLabel ?start ?end WHERE {
wd:Q76 p:P69 ?school_statement .
?school_statement ps:P69 ?school .
?school_statement pq:P580 ?start .
?school_statement pq:P582 ?end .
   SERVICE wikibase:label {
    bd:serviceParam wikibase:language "en" .
   }
 }

但问题是,如果不查看实际页面,我怎么知道?school_statement有pq:P580和pq:P582,即“开始时间”和“结束时间”?这一切都归结为一个问题,我如何从https://www.wikidata.org/wiki/Q76获取所有信息(包括具体化)?

最终,我希望这样的表: ||predicate||object||objectLabel||qualifier1||qualifier1Value||qualifier2||qualifier2Value||...

1 个答案:

答案 0 :(得分:3)

你应该选择Wikidata data API(更具体地说是wbgetentities模块)而不是SPARQL端点:

在你的情况下: https://www.wikidata.org/w/api.php?action=wbgetentities&format=json&ids=Q76

您应该找到所需的所有限定符数据:示例entities.Q76.claims.P69.1

{ mainsnak: 
   { snaktype: 'value',
     property: 'P69',
     datavalue: 
      { value: { 'entity-type': 'item', 'numeric-id': 3273124, id: 'Q3273124' },
        type: 'wikibase-entityid' },
     datatype: 'wikibase-item' },
  type: 'statement',
  qualifiers: 
   { P580: 
      [ { snaktype: 'value',
          property: 'P580',
          hash: 'a1db249baf916bb22da7fa5666d426954435256c',
          datavalue: 
           { value: 
              { time: '+1971-01-01T00:00:00Z',
                timezone: 0,
                before: 0,
                after: 0,
                precision: 9,
                calendarmodel: 'http://www.wikidata.org/entity/Q1985727' },
             type: 'time' },
          datatype: 'time' } ],
     P582: 
      [ { snaktype: 'value',
          property: 'P582',
          hash: 'a065bff95f5cb3026ebad306b3df7587c8daa2e9',
          datavalue: 
           { value: 
              { time: '+1979-01-01T00:00:00Z',
                timezone: 0,
                before: 0,
                after: 0,
                precision: 9,
                calendarmodel: 'http://www.wikidata.org/entity/Q1985727' },
             type: 'time' },
          datatype: 'time' } ] },
  'qualifiers-order': [ 'P580', 'P582' ],
  id: 'q76$464382F6-E090-409E-B7B9-CB913F1C2166',
  rank: 'normal' }

然后你可能会对extract readable results from those results

的方式感兴趣