使用PhantomJS从网站获取隐藏的内容

时间:2015-09-13 03:43:59

标签: javascript web-scraping phantomjs

我正在尝试抓取TripAdvisor特定页面的所有内容。使用下面的代码,我得到所有.html代码,包含所有内容。在下载所有html之前,我想用PhantomJS操作页面来选择3件事:

  • 按“日期”选择排序
  • 选择“任意”语言
  • 展开所有评论的所有“更多”按钮以显示所有评论。

我附上了截图,以便更清晰。

http://www.tripadvisor.com/Restaurant_Review-g187234-d2631590-Reviews-Le_Bedouin_Chez_Michel-Nice_French_Riviera_Cote_d_Azur_Provence.html#REVIEWS

main()

有这个JS库经验的人能告诉我如何执行这些操作吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

您需要添加onLoadFinished函数。如果是我,我会注入jquery并使用它与dom进行交互。

page.onLoadFinished = function() {
  page.includeJs('http://ajax.googleapis.com/ajax/libs/jquery/1.7.2/jquery.min.js', function() {
    page.evaluate(function() {
      // do dom stuff here
    });
  });
};