对于网站列表,我希望按年度编制索引页面, if 在那一年的任何时候存档。因此,如果我正在查看example1.com
和example2.com
,我希望能够获得:
2010: example1.com, example2.com (the html from these archived pages)
2011: example1.com (example2.com, say, was not archived in 2011)
2012: example2.com
2013: example1.com, example2.com
等等。
是否可以使用Wayback Machine API?我看了their API listing并且我似乎无法做我想做的事情。也许我错过了一些东西,但它似乎是一个相当合理的用例。还有其他建议吗?
答案 0 :(得分:7)
他们理解Wayback Machine API的关键是有(从我能说的)三种不同的方法来处理它们。
第一个是在您已经提到的Wayback Machine API page顶部附近记录的API。
该API为给定页面上的存档提供了日期最接近的结果。因此,您可以查看Wayback Machine,了解新年前后存档的Google主页的副本,如下所示:
http://archive.org/wayback/available?url=google.com×tamp=20080101 http://archive.org/wayback/available?url=google.com×tamp=20090101 http://archive.org/wayback/available?url=google.com×tamp=20100101 等。
使用这些网址中返回的信息,您可以轻松地以编程方式下载内容。
接下来我们有Wayback Machine CDX Server API,它揭示了更丰富的一系列接口。最值得注意的是,您可以快速下载您感兴趣的URL的每个快照:
http://web.archive.org/cdx/search/cdx?url=www.fredtrotter.com
最后,我们拥有了Wayback Machine Memento API这个深层而神秘的资源。这个链接是关于功能的博客文章,但是从我可以获得的,这是关于在协议级别使用Wayback Machine,其中Mememnto协议是存档站点应该运行的方式的经过深思熟虑的版本
在所有情况下,请温柔并尊重您的脚本。 Wayback Machine API目前不需要凭证,这是一种非常慷慨和开放的姿态,一般与互联网档案馆作为“虚拟世界的奇迹”的角色保持一致。所以不要滥用它,因为这是我们确保我们拥有美好事物的方式。
感谢Greg和Wayback Machine团队的其他成员,感谢您为保持互联网成为个人自由和表达的源泉所做的出色工作。
答案 1 :(得分:4)
我们的CDX API允许您进行2次单独调用,获取url或域example1.com和url或域example2.com的所有捕获列表。然后,您可以生成任何您喜欢的摘要。