什么是从dbpedia(或维基百科)中提取“外部链接”数据的最快方法?

时间:2012-12-30 18:42:38

标签: wikipedia dbpedia wikipedia-api

我需要从jquery(首选)或php中的数组中获取特定维基百科文章的“外部链接”链接。我已经浏览了wikipedia api,似乎没有办法做到这一点。看起来有一种方法可以在dbpedia中完成(dbpedia.org/resource/etc页面显示“dbpedia-owl:wikiPageExternalLink”部分),但我从未使用过sparkql,也不知道如何在与jquery或php结合。

任何人都可以帮助我吗?

4 个答案:

答案 0 :(得分:4)

http://dbpedia.org/sparql

的sparql查询表单中尝试以下查询
select ?link where 
{
 <http://dbpedia.org/resource/Rome> 
 <http://dbpedia.org/ontology/wikiPageExternalLink> 
 ?link
} LIMIT 100

然后查看结果页面的浏览器地址栏,了解如何通过GET对查询进行编码。

否则,您可以查看http://json.it.dbpedia.org

玩得开心!

答案 1 :(得分:1)

您可能正在寻找prop = extlinks。

这是一个获得英语维基百科“德国”一文中所有链接的例子:

https://en.wikipedia.org/w/api.php?action=query&prop=extlinks&format=json&ellimit=5000&titles=Germany

您可以使用API​​沙箱调整它:https://en.wikipedia.org/wiki/Special:ApiSandbox

答案 2 :(得分:0)

您可以单独使用带有文本版本的dump [0],然后解析文本。例如,您可以在“==外部链接==”之后在文本中搜索外部链接,或者在外部链接[1]的其他模板中搜索。

0 - http://dumps.wikimedia.org/

1 - http://en.wikipedia.org/wiki/Template:External_links

答案 3 :(得分:0)

如果要从Wikipedia(从所有页面)中提取所有外部链接,则可以使用以下工具:wikipedia-externallinks-fast-extraction