提取链接的子内容

时间:2014-02-21 06:27:49

标签: java jsoup

如何提取这个新闻的“阅读更多”部分。当我使用jsoup时,它只提供“阅读更多”部分的内容。我想提取该新闻的全部内容。

Scanner sc=new Scanner(System.in);
String code=sc.nextLine();
doc = Jsoup.connect("http://ieee-link.org/category/events/" +code+ "/").get();
Elements els = doc.select("div.entry");
System.out.println(els.text());  

1 个答案:

答案 0 :(得分:0)

阅读更多似乎包含一个链接。您可以使用Jsoup提取该链接的目标并获取此URL:

Elements els = doc.select("div.entry");
//inside each els we can find something like: <a class="more-link" href="http://ieee-link.org/renesas/">Read More »</a>

for (Element el : els){
  Element anchor = el.select("a.more-link");
  if (anchor != null){
    Document moreDoc = Jsoup.connect(anchor.attr("href")).get();
    System.out.println(moreDoc);
  }
  else{
    System.out.println(el);
  }
}

请注意,这段代码是我脑海中写的。某些方法名称可能有误。拼写也值得怀疑。