使用ScrAPI防止下载图像

时间:2010-07-05 08:08:38

标签: ruby-on-rails image screen-scraping

我需要抓一些网站,并希望避免从我正在抓取的页面下载图像 - 我只需要文本。我希望这会加快这个过程。关于如何管理这个的任何想法?

谢谢, 乔恩

1 个答案:

答案 0 :(得分:2)

在抓取内容时,您不会下载图片,而是引用IMG标记以及整个body。在存储到数据库/渲染到视图之前,您始终可以删除服务器端的IMG标记。我建议您使用nokogiri来解析收到的内容并删除所有IMG标记。

然而,这并没有加快这个过程。它只是简单的旧html被刮掉了。如果您想要快速提取和解析,请查看Feedzirra,如果您正在处理提要或Typhoeus仅提取html内容。