如何提取这个新闻的“阅读更多”部分。当我使用jsoup时,它只提供“阅读更多”部分的内容。我想提取该新闻的全部内容。
Scanner sc=new Scanner(System.in);
String code=sc.nextLine();
doc = Jsoup.connect("http://ieee-link.org/category/events/" +code+ "/").get();
Elements els = doc.select("div.entry");
System.out.println(els.text());
答案 0 :(得分:0)
阅读更多似乎包含一个链接。您可以使用Jsoup提取该链接的目标并获取此URL:
Elements els = doc.select("div.entry");
//inside each els we can find something like: <a class="more-link" href="http://ieee-link.org/renesas/">Read More »</a>
for (Element el : els){
Element anchor = el.select("a.more-link");
if (anchor != null){
Document moreDoc = Jsoup.connect(anchor.attr("href")).get();
System.out.println(moreDoc);
}
else{
System.out.println(el);
}
}
请注意,这段代码是我脑海中写的。某些方法名称可能有误。拼写也值得怀疑。