应用错误收集

我有bz2数据转储（特别是从here下载的enwiki-latest-pages-articles.xml.bz2和每个文章ID（或页面ID？），但是我只想获得一个列表。属于人（或我想要的任何其他本体类别）的那些文章（/页面）ID。编辑：我使用WikiExtractor来获取JSON格式的文章和ID确实是钥匙，例如

   {
    "id": "316",
    "url": "https://en.wikipedia.org/wiki?curid=316", 
    "text": "Academy Award for Best Production Design\.... 
    }

编辑：它们可能不是“文章ID”，而是页面ID（很抱歉，我对此表示歉意）。

我知道我可以使用SPARQL来获取人员列表，但是我只需要输入here的商品ID，尽管我相信输出也仅限于500。

SELECT * WHERE
{ ?p a <http://dbpedia.org/ontology/Person> .}

我只需要基本上使用相同查询的商品ID，但需要所有ID，而不是子集。

查找仅属于人员的所有Wikipedia文章ID

0 个答案: