我正在尝试使用Jsoup从网页中提取整体评论编号。 例如,这是一个页面(CNN):http://edition.cnn.com/2011/POLITICS/07/31/debt.talks/index.html?hpt=T1
我看到类ID是cnn_strycmtsndff,但无法找到正确的命令来提取它。
有人可以帮忙吗?
由于
答案 0 :(得分:1)
不幸的是,我认为Jsoup不会削减它。如果您使用Chrome开发人员工具,则可以清楚地选择用于显示“(##### Comments)”部分的HTML,但如果您只是查看源代码,那么这些信息都不存在。看起来他们正在使用一些Javascript动态地在页面中嵌入信息。
这是您在“查看来源”中看到的内容:
<div id="disqus_thread"></div><script type="text/javascript" src="http://cnn.disqus.com/embed.js"></script>
因此,Jsoup将永远无法看到带有评论信息的元素。