有没有办法只使用JavaScript从维基百科获取主段落?

时间:2014-03-05 21:46:05

标签: javascript wikipedia

来自Wikipedia

  

Google是一家专门从事美国跨国公司的公司   与互联网相关的服务和产品。这些包括搜索,   云计算,软件和在线广告技术。   其大部分利润来自AdWords。谷歌成立   由Larry Page和Sergey Brin担任博士学位。学生们   斯坦福大学。他们共同持有约16%的股份。   他们于9月4日将Google合并为一家私营公司,   随后于2004年8月19日进行了首次公开募股。其一开始的使命宣言是“组织世界的   信息,使其普遍可访问和有用“,及其   非正式的口号是“不要做坏事”。 2006年谷歌搬到了   总部设在加利福尼亚州山景城,绰号为Googleplex。

如何仅使用JavaScript从维基百科获取主段落?

3 个答案:

答案 0 :(得分:3)

这会让您获得原始HTML

$('#mw-content-text').children('p')[0];

您可以使用某种刮刀。也许用PhantomJS编写脚本。

答案 1 :(得分:2)

为避免跨域问题,您可以使用JSONP执行此操作:

$.getJSON("http://en.wikipedia.org/w/api.php?action=query&prop=extracts&exintro&format=json&callback=?&titles=Google", function(data){
    var page = data.query.pages;
    var intro = "";
    for (var key in page) {
        var obj = page[key];
        intro = obj.extract;
    }
    console.log(intro);
});

答案 2 :(得分:1)

Google已经完成了这项工作,并通过RDF将所有这些信息公开为JSON / Freebase API图表。

您还可以获取原始HTML,然后解析内容。