JSoup只提取维基百科的特定部分

时间:2014-06-23 18:58:18

标签: java android html jsoup

我设法在"表格中提取信息"在维基百科文章的右侧。但是我也希望从文章的正文中得到段落。

我使用atm的代码仅在大约60%的时间内工作(Nullpointers或根本没有文本)。在下面的示例中,我只关注第一段,但这与我的问题无关。

在下图中,我展示了我想要文本的部分。我希望能够遍历<中的所有

...

部分。 DIVID =" MW-内容文本" ....类=" MW-内容-LTR">块。

StringBuilder sb = new StringBuilder();
    String url = baseUrl + location;
    Document doc = Jsoup.connect(url).get();
    Elements paragraphs = doc.select(".mw-content-ltr  p");

    Element firstParagraph = paragraphs.first();
    Element elementTwo = firstParagraph.nextElementSibling();
    if (elementTwo == null) {
        for (int i = 0; i < 2; i++) {
            sb.append(paragraphs.get(i).text());

        }
    } else {
        sb.append(elementTwo.text());
    }

    return sb.toString();

enter image description here

0 个答案:

没有答案