通过div类名称从新闻文章中提取段落

时间:2016-01-07 12:03:46

标签: html parsing jsoup

我正试图从link中提取新闻文章。 我使用以下代码来提取其类名。我很确定特定的类存在但是它无法获取内容。相同的代码适用于其他类似网站。

Document document = Jsoup.connect(newsLink).get();
Elements element = document.getElementsByClass("ins_storybody");
story = element.text();

3 个答案:

答案 0 :(得分:1)

我不确定为什么你的解决方案不起作用,但是如果你使用css选择器功能它应该工作:

String story = document.select("div.ins_storybody").text();

答案 1 :(得分:0)

以下两个都为我自己工作

Document doc= Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
Elements element = doc.getElementsByClass("ins_storybody");
String text= element.text();
System.out.println(text);


Document doc = Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
String text  = doc.select("div.ins_storybody").text();
System.out.println(text);

您是否检查过以确保提供了正确的网址?尝试将'doc'变量打印到控制台,这应该包含网页的内容。

答案 2 :(得分:0)

您也可以尝试使用此CSS选择器:

#ins_storybody

示例代码

Document document = Jsoup.connect(newsLink).get();
Element element = document.getElementById("#ins_storybody").first();
if (element==null) {
    throw new RuntimeException("Unable to locate story in: " + newsLink);
}
story = element.text();

element也可以像下面一样检索:

Element element = document.getElementById("ins_storybody");