根据标题获取维基百科页面的文本内容

时间:2013-01-27 09:54:28

标签: wikipedia wikipedia-api

当我给出维基百科页面的标题时,我想要纯文本格式的页面内容。没有图像,没有标记等。

我一直在浏览维基百科API,但找不到任何相关结果。

鉴于任务的简单性,我相信维基百科API支持这一点。

那么,我该如何实现呢?

1 个答案:

答案 0 :(得分:0)

像这样:

<script src="http://code.jquery.com/jquery-1.9.0.min.js"></script>
<script>
function wiktext() {
    var title = prompt("Enter the title:","Title of Wikipedia Page to get");
    var address = "http://en.wikipedia.org/w/api.php?format=txt&action=query&prop=revisions&rvprop=content&titles=" + encodeURIComponent(title);
    $.get(address, function(result) {
        console.log(result);
    });
}
wiktext();
</script>

但请注意,这是Wikimarkup Text。并且您需要去除描述嵌套数据结构的标题的前几行。

然后,您可以使用this Wiki to HTML parser by remy sharp删除大多数wiki内容并为您提供一些HTML。然后只需在将HTML放入的元素上使用jquery的.text()方法。

有关详细信息,请参阅the API doc here