我在我的rails应用中使用gem mechanize来废弃网页数据。 我这样用它:
agent = Mechanize.new
document = agent.get("http://www.google.com")
这很好用,反应很快。但是,当url是返回文件或图像的东西时,它会下载文件并且可能需要一段时间。但是我甚至不想对文件的内容感兴趣,我只是想避免抓取它们。
agent = Mechanize.new
document = agent.get("https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf")
Mechanize有哪些配置呢?或者我应该在创建一些regexp之前验证URl(但这听起来不可扩展)?
谢谢!
答案 0 :(得分:0)
通过使用RestClient
进行快速查找解决了这个问题url = "https://speakerd.s3.amazonaws.com/presentations/42e9703056c60131ff9556cea4acc4c2/Buildlightsaber_preso.pdf"
(RestClient.head(url).headers[:content_type] =~ /text\/html/).nil?