我设法在"表格中提取信息"在维基百科文章的右侧。但是我也希望从文章的正文中得到段落。
我使用atm的代码仅在大约60%的时间内工作(Nullpointers或根本没有文本)。在下面的示例中,我只关注第一段,但这与我的问题无关。
在下图中,我展示了我想要文本的部分。我希望能够遍历<中的所有
...
部分。 DIVID =" MW-内容文本" ....类=" MW-内容-LTR">块。
StringBuilder sb = new StringBuilder();
String url = baseUrl + location;
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
Element firstParagraph = paragraphs.first();
Element elementTwo = firstParagraph.nextElementSibling();
if (elementTwo == null) {
for (int i = 0; i < 2; i++) {
sb.append(paragraphs.get(i).text());
}
} else {
sb.append(elementTwo.text());
}
return sb.toString();