我有bz2数据转储(特别是从here下载的enwiki-latest-pages-articles.xml.bz2和每个文章ID(或页面ID?),但是我只想获得一个列表。属于人(或我想要的任何其他本体类别)的那些文章(/页面)ID。编辑:我使用WikiExtractor来获取JSON格式的文章和ID确实是钥匙,例如
{
"id": "316",
"url": "https://en.wikipedia.org/wiki?curid=316",
"text": "Academy Award for Best Production Design\....
}
编辑:它们可能不是“文章ID”,而是页面ID(很抱歉,我对此表示歉意)。
我知道我可以使用SPARQL来获取人员列表,但是我只需要输入here的商品ID,尽管我相信输出也仅限于500。
SELECT * WHERE
{ ?p a <http://dbpedia.org/ontology/Person> .}
我只需要基本上使用相同查询的商品ID,但需要所有ID,而不是子集。