如何用jsoup解析html项目的“不可见”

时间:2015-03-18 16:49:29

标签: html web-scraping jsoup

我想通过jsoup从hardens.com获取所有餐厅评论,但我有一个问题。默认情况下,您可以在每家餐厅看到3条评论,这些评论也会显示在页面来源上。如果有更多可用的评论,则会有一个"加载更多评论"允许我通过浏览器查看评论的选项,但是当我查看页面源时,他们不在那里。没有关于"加载更多评论"的链接。而且我不知道我应该如何获得这些评论。有什么想法吗?

以下是该网站的链接: http://www.hardens.com/az/restaurants/london/w1/le-gavroche.htm

1 个答案:

答案 0 :(得分:0)

看起来该网站正在通过AJAX请求加载其他评论。查看启用了XHR日志记录的控制台,我看到:

XHR finished loading: POST "http://www.hardens.com/more_reviews/load_more_reviews.php".

因此,您需要确定运行该请求的JS代码并自行运行相同的请求。它可能返回JSON或类似机器可读的东西,因此您可以使用该PHP脚本作为刮擦的更容易的替代方法。