Question

我正在尝试在Google缓存中进行搜索，因此我需要触发此查询：

http://webcache.googleusercontent.com/search?q=cache:news.ycombinator.com/news+hacker+news

从页面中获取一些内容，如时间戳。但是当我使用curl（ruby）执行此操作时，它会给出一个权限被拒绝的错误，即抓取被阻止并且是预期的。

那么，有没有办法搜索谷歌缓存（API或某种解决方法）并提取一些信息，如时间戳？

Answer 1

我没有得到任何API但是我可以使用rails中的hpricot或nokogiri来抓取它（Rails中的curl会给出权限被拒绝错误）。一旦我弄清楚如何使用这些宝石从上面的URL中提取时间戳，我就会提出代码。

任何人都有更好的解决方案吗？

Answer 2