Question

我在我的rails应用中使用gem mechanize来废弃网页数据。我这样用它：

agent = Mechanize.new
document = agent.get("http://www.google.com")

这很好用，反应很快。但是，当url是返回文件或图像的东西时，它会下载文件并且可能需要一段时间。但是我甚至不想对文件的内容感兴趣，我只是想避免抓取它们。

agent = Mechanize.new
document = agent.get("https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf")

Mechanize有哪些配置呢？或者我应该在创建一些regexp之前验证URl（但这听起来不可扩展）？

谢谢！

Answer 1

通过使用RestClient

进行快速查找解决了这个问题

url = "https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf" 
(RestClient.head(url).headers[:content_type] =~ /text\/html/).nil?

如何避免Mechanize解析文件或图像的URL？

1 个答案: