如何以编程方式访问Wayback Machine?

时间:2015-11-19 18:25:11

标签: web-scraping

我想做什么

对于网站列表,我希望按年度编制索引页面, if 在那一年的任何时候存档。因此,如果我正在查看example1.comexample2.com,我希望能够获得:

2010: example1.com, example2.com (the html from these archived pages)
2011: example1.com (example2.com, say, was not archived in 2011)
2012: example2.com
2013: example1.com, example2.com

等等。

问题

是否可以使用Wayback Machine API?我看了their API listing并且我似乎无法做我想做的事情。也许我错过了一些东西,但它似乎是一个相当合理的用例。还有其他建议吗?

2 个答案:

答案 0 :(得分:7)

他们理解Wayback Machine API的关键是有(从我能说的)三种不同的方法来处理它们。

Wayback Availability JSON API

第一个是在您已经提到的Wayback Machine API page顶部附近记录的API。

该API为给定页面上的存档提供了日期最接近的结果。因此,您可以查看Wayback Machine,了解新年前后存档的Google主页的副本,如下所示:

http://archive.org/wayback/available?url=google.com&timestamp=20080101 http://archive.org/wayback/available?url=google.com&timestamp=20090101 http://archive.org/wayback/available?url=google.com&timestamp=20100101 等。

使用这些网址中返回的信息,您可以轻松地以编程方式下载内容。

Wayback CDX Server API

接下来我们有Wayback Machine CDX Server API,它揭示了更丰富的一系列接口。最值得注意的是,您可以快速下载您感兴趣的URL的每个快照:

http://web.archive.org/cdx/search/cdx?url=www.fredtrotter.com

Memento API

最后,我们拥有了Wayback Machine Memento API这个深层而神秘的资源。这个链接是关于功能的博客文章,但是从我可以获得的,这是关于在协议级别使用Wayback Machine,其中Mememnto协议是存档站点应该运行的方式的经过深思熟虑的版本

最后的想法

在所有情况下,请温柔并尊重您的脚本。 Wayback Machine API目前不需要凭证,这是一种非常慷慨和开放的姿态,一般与互联网档案馆作为“虚拟世界的奇迹”的角色保持一致。所以不要滥用它,因为这是我们确保我们拥有美好事物的方式。

感谢Greg和Wayback Machine团队的其他成员,感谢您为保持互联网成为个人自由和表达的源泉所做的出色工作。

答案 1 :(得分:4)

我们的CDX API允许您进行2次单独调用,获取url或域example1.com和url或域example2.com的所有捕获列表。然后,您可以生成任何您喜欢的摘要。