如果在滚动后使用Javascript追加数据,如何抓取整个网站

时间:2013-02-05 07:59:40

标签: web-crawler

我需要抓取一个网站,但问题是,底部没有链接分页。如果滚动到底部,则会附加数据。现在我怎样才能让我的抓取工具实现这一目标?有什么想法吗?

2 个答案:

答案 0 :(得分:1)

尝试检查执行的脚本,以便在向下滚动时附加数据。它必须以某种方式检索其他数据 - 只要看看它在做什么,让你的爬虫做同样的事情。

答案 1 :(得分:0)

使用像Selenium这样的机器人可以工作,您可以在真实的导航器中模拟真实用户。我曾经用facebook做过的一件事就是在C ++ / Qt中使用JavaScript解释器,然后通过它发送请求。比Selenium快很多。

我确信Google拥有比您更强大的处理能力,并且网站管理员会尽一切可能让他们解析。