Question

我设法在＆＃34;表格中提取信息＆＃34;在维基百科文章的右侧。但是我也希望从文章的正文中得到段落。

我使用atm的代码仅在大约60％的时间内工作（Nullpointers或根本没有文本）。在下面的示例中，我只关注第一段，但这与我的问题无关。

在下图中，我展示了我想要文本的部分。我希望能够遍历＆lt;中的所有

...

部分。 DIVID =＆＃34; MW-内容文本＆＃34; ....类=＆＃34; MW-内容-LTR＆＃34;＆GT;块。

StringBuilder sb = new StringBuilder();
    String url = baseUrl + location;
    Document doc = Jsoup.connect(url).get();
    Elements paragraphs = doc.select(".mw-content-ltr  p");

    Element firstParagraph = paragraphs.first();
    Element elementTwo = firstParagraph.nextElementSibling();
    if (elementTwo == null) {
        for (int i = 0; i < 2; i++) {
            sb.append(paragraphs.get(i).text());

        }
    } else {
        sb.append(elementTwo.text());
    }

    return sb.toString();

enter image description here

JSoup只提取维基百科的特定部分

0 个答案: