如何避免Mechanize解析文件或图像的URL?

时间:2014-07-09 19:56:04

标签: mechanize

我在我的rails应用中使用gem mechanize来废弃网页数据。 我这样用它:

agent = Mechanize.new
document = agent.get("http://www.google.com")

这很好用,反应很快。但是,当url是返回文件或图像的东西时,它会下载文件并且可能需要一段时间。但是我甚至不想对文件的内容感兴趣,我只是想避免抓取它们。

agent = Mechanize.new
document = agent.get("https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf")

Mechanize有哪些配置呢?或者我应该在创建一些regexp之前验证URl(但这听起来不可扩展)?

谢谢!

1 个答案:

答案 0 :(得分:0)

通过使用RestClient

进行快速查找解决了这个问题
url = "https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf" 
(RestClient.head(url).headers[:content_type] =~ /text\/html/).nil?