node-simplecrawler:ajaxed内容页抓取问题

时间:2015-09-05 17:11:16

标签: ajax node.js web-crawler

我使用this script抓取一些购物网站。我有一个巨大的问题,使这个脚本和任何其他对我来说毫无价值。

我们正计划在一个名为digikala(www.digikala.com)的购物网站上抓取页面。问题是主要产品网格从AJAX调用中加载数据。

例如此页面:http://www.digikala.com/Search/Category-Mobile-Phone/#!/Brand-10/Category-Electronic-Devices/Category-Mobile/Category-Mobile-Phone/

如果您看到您的firebug / developer-console,您将看到此类别的产品网格在AJAX后调用后加载。那么我该如何抓取这些产品页面呢?

在获取页面之前添加一些等待(例如10秒)将解决问题?

1 个答案:

答案 0 :(得分:0)

选项1:使用浏览器模拟,吸吮为幻影,

option2:从开发者工具中检出ajax网址,直接从网址获取数据。小心,可能需要特殊的标题,或某种验证。