我正在尝试从网页http://www.zomato.com/mumbai/starbucks-coffee-fort中提取文字,包括原文中的任何换行符,空格。为此,我在Jsoup - extracting text的答案帮助下编写了以下代码:
Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div");
for (Element d : div) {
for (Node nd : d.childNodes()) {
System.out.println(nd.toString());
}
}
但它没有按预期工作。实际上它应该打印文本和文本 它的所有子节点。此外,我希望这段代码有点概括,以便它可以 从任何网页中提取文本。请帮忙。
答案 0 :(得分:0)
Jsoup是用于从任何网页抓取文本的通用工具;)
此案例的解决方案:
Document doc = Jsoup.connect("http://www.zomato.com/mumbai/starbucks-coffee-fort").get();
Elements div = doc.select("div.res-review-body > div > p");
for (Element paragraph : div) {
System.out.println(paragraph.text());
}
结果:
Firstly I would say it was tough to even start writing a review for a brand like 'Starbucks'.
(...)