我正在使用js-crawler抓取网站,现在遇到了CNN,its landing page links are inside 的一部分(由于某种原因动态生成的网址)。 事情是爬虫不真正触摸脚本 - 我应该如何解决它?除了我的node.js爬虫之外,我应该编写自己的代码吗?是否有高级爬虫知道如何处理这种动态行为?
答案 0 :(得分:2)
将我的评论写成答案:
由客户端Javascript生成的抓取内容是一个复杂的问题,甚至谷歌都没有完全解决。
真正做到这一点的唯一方法是使用某种无头浏览器,在服务器上安全地沙箱化,将页面加载到类似浏览器的环境中,在该环境中可以运行自己的脚本并生成自己的内容然后你可以检查生成的DOM。
即便如此,它也不一定会生成需要用户互动的内容(例如点击标签以显示某些内容)。