我想从www.marktplaats.nl抓取数据。我想在Excel / Access中分析已删除的描述,价格,日期和视图。
我试图用Ruby(nokogiri,scrapi)抓取数据,但没有任何效果。 (在其他网站上运行良好)主要问题是例如selectorgadget和附加组件firebug(Firefox)找不到任何我可以用来刮擦页面的CSS。在其他网站上,我可以使用selectorgadget或firebug提取css,并将其与nokogiri或scrapi一起使用。 由于缺乏经验,很难确定问题,因此寻找解决方案并不容易。
你能告诉我从哪里开始解决这个问题,我可以找到更多关于类似抓取过程的信息吗?
提前致谢!
答案 0 :(得分:1)
我使用excel网页查询,效果很好。如果您搜索mrexcel,可以在youtube上找到很多关于使用excel进行抓取的信息。 谢谢,梅洛
答案 1 :(得分:0)
iframe不是问题 - 只需直接访问嵌入式iframe网址即可。除非禁用JavaScript,否则您会发现它会在浏览器中重定向。
可以直接从HTML源提取描述和日期。然而,价格是图像,这将使他们更加繁琐。
答案 2 :(得分:0)
您可以尝试使用IRobotSoft网络抓取工具。它具有良好的框架支持,是免费的。