屏幕抓取使用javaScript和框架的网页

时间:2010-02-07 13:05:40

标签: javascript screen-scraping

我想从www.marktplaats.nl抓取数据。我想在Excel / Access中分析已删除的描述,价格,日期和视图。

我试图用Ruby(nokogiri,scrapi)抓取数据,但没有任何效果。 (在其他网站上运行良好)主要问题是例如selectorgadget和附加组件firebug(Firefox)找不到任何我可以用来刮擦页面的CSS。在其他网站上,我可以使用selectorgadget或firebug提取css,并将其与nokogiri或scrapi一起使用。 由于缺乏经验,很难确定问题,因此寻找解决方案并不容易。

你能告诉我从哪里开始解决这个问题,我可以找到更多关于类似抓取过程的信息吗?

提前致谢!

3 个答案:

答案 0 :(得分:1)

我使用excel网页查询,效果很好。如果您搜索mrexcel,可以在youtube上找到很多关于使用excel进行抓取的信息。 谢谢,梅洛

答案 1 :(得分:0)

iframe不是问题 - 只需直接访问嵌入式iframe网址即可。除非禁用JavaScript,否则您会发现它会在浏览器中重定向。

可以直接从HTML源提取描述和日期。然而,价格是图像,这将使他们更加繁琐。

答案 2 :(得分:0)

您可以尝试使用IRobotSoft网络抓取工具。它具有良好的框架支持,是免费的。