我需要抓一些网站,并希望避免从我正在抓取的页面下载图像 - 我只需要文本。我希望这会加快这个过程。关于如何管理这个的任何想法?
谢谢, 乔恩
答案 0 :(得分:2)
在抓取内容时,您不会下载图片,而是引用IMG
标记以及整个body
。在存储到数据库/渲染到视图之前,您始终可以删除服务器端的IMG
标记。我建议您使用nokogiri来解析收到的内容并删除所有IMG
标记。
然而,这并没有加快这个过程。它只是简单的旧html
被刮掉了。如果您想要快速提取和解析,请查看Feedzirra
,如果您正在处理提要或Typhoeus
仅提取html内容。