如何使用Jsoup从维基百科中提取文本?

时间:2014-05-28 11:48:34

标签: java jsoup wiki

我想使用jsoup提取整个维基百科文章。有很多例子,但这不是我想要的。通过提取整个维基百科文章,我理解文本,表格等。你能给我一些例子吗?

2 个答案:

答案 0 :(得分:3)

您应该使用Rest API来提取数据

http://www.mediawiki.org/wiki/API:Main_page

答案 1 :(得分:2)

感谢您提供信息。一个小时后,我处理了这个问题。

    String url = "http://en.wikipedia.org/wiki/New_York_City";
    Document doc = Jsoup.connect(url).get();
    Elements paragraphs = doc.select(".mw-content-ltr p, .mw-content-ltr li");

    Element firstParagraph = paragraphs.first();
    Element lastParagraph = paragraphs.last();
    Element p;
    int i = 1;
    p = firstParagraph;
    System.out.println(p.text());
    while (p != lastParagraph) {
        p = paragraphs.get(i);
        System.out.println(p.text());
        i++;
    }