我使用this script抓取一些购物网站。我有一个巨大的问题,使这个脚本和任何其他对我来说毫无价值。
我们正计划在一个名为digikala(www.digikala.com)的购物网站上抓取页面。问题是主要产品网格从AJAX调用中加载数据。
如果您看到您的firebug / developer-console,您将看到此类别的产品网格在AJAX后调用后加载。那么我该如何抓取这些产品页面呢?
在获取页面之前添加一些等待(例如10秒)将解决问题?
答案 0 :(得分:0)
选项1:使用浏览器模拟,吸吮为幻影,
option2:从开发者工具中检出ajax网址,直接从网址获取数据。小心,可能需要特殊的标题,或某种验证。