当Google为特定的html网页编制索引时,如何找到(任何语言,但如果是Python更好的话)?
理想情况下,我会有一个要检查的网址列表。
我已经尝试过WayBack机器,但它没有我需要的大部分页面。此外,如果任何人都可以建议API从文本中提取多种语言的日期。
答案 0 :(得分:0)
您可以使用此模式访问网页的缓存版本。
http://webcache.googleusercontent.com/search?q=cache:<URL>
比如说,你可以看到我的博客datafireball.com的缓存版本,如你所见,它被编入索引20141020, 23:33:30
,strip=
将避免加载javascript,css..etc 。为了获得索引是索引的时间,您可以使用一些浏览器自动化工具,如Selenium或Phantomjs ...等来获取页面。