我想使用jsoup提取整个维基百科文章。有很多例子,但这不是我想要的。通过提取整个维基百科文章,我理解文本,表格等。你能给我一些例子吗?
答案 0 :(得分:3)
您应该使用Rest API来提取数据
答案 1 :(得分:2)
感谢您提供信息。一个小时后,我处理了这个问题。
String url = "http://en.wikipedia.org/wiki/New_York_City";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p, .mw-content-ltr li");
Element firstParagraph = paragraphs.first();
Element lastParagraph = paragraphs.last();
Element p;
int i = 1;
p = firstParagraph;
System.out.println(p.text());
while (p != lastParagraph) {
p = paragraphs.get(i);
System.out.println(p.text());
i++;
}