应用错误收集

抓取网址\如何在node.js中获取动态链接

时间：2016-07-23 20:25:04

标签： node.js web-crawler

我正在使用js-crawler抓取网站，现在遇到了CNN，its landing page links are inside 的一部分（由于某种原因动态生成的网址）。事情是爬虫不真正触摸脚本 - 我应该如何解决它？除了我的node.js爬虫之外，我应该编写自己的代码吗？是否有高级爬虫知道如何处理这种动态行为？

1 个答案:

答案 0 :(得分：2)

将我的评论写成答案：

由客户端Javascript生成的抓取内容是一个复杂的问题，甚至谷歌都没有完全解决。

真正做到这一点的唯一方法是使用某种无头浏览器，在服务器上安全地沙箱化，将页面加载到类似浏览器的环境中，在该环境中可以运行自己的脚本并生成自己的内容然后你可以检查生成的DOM。

即便如此，它也不一定会生成需要用户互动的内容（例如点击标签以显示某些内容）。

URL重写动态链接
Ruby：检测损坏的链接而不实际抓取URL？
来自Google的抓取链接
抓取网址\如何在node.js中获取动态链接
在div中抓取链接
如何在NodeJS中获取完整的动态URL？
如何快递路线类似的网址链接？
广度优先链接抓取
如何从Firebase动态链接中检索短网址链接
在特定目录中搜寻和保存链接。切里奥

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？