Wayback Machine API参数

时间:2015-06-08 21:13:44

标签: java php

Wayback机器提供了一个API,允许您下载信息。实际上有多个API,在搜索几个小时后,我真的无法做到以下几点:

使用wayback machine API,我想获得 06/06/15索引的所有域名列表

我已阅读此处的文档

https://archive.org/help/wayback_api.php

但我找不到......

我期待这样的事情发挥作用:

http://archive.org/wayback/available?url=*&timestamp=20150606

3 个答案:

答案 0 :(得分:2)

按照设计,不可能做你想要的(?url = *)。您要求我们通过36 TB的数据来查找大量的数据;它不是我们的查询引擎支持的查询。

答案 1 :(得分:0)

这是一个工作示例,请检查以下内容:

http://archive.org/wayback/available?http://sourceforge.net/projects/=%27+url+%27&timestamp=20131006000000

确保您拥有正确的时间戳值

这些是我用来生成网址的行。它在python中:

url = "http://sourceforge.net/projects/"+name.rstrip()

wbm_url = 'http://archive.org/wayback/available?url='+url+'&timestamp=20131006000000'

答案 2 :(得分:0)

自2013年以来,可能会有一个答案,说明如何获取获取网站的特定存档副本所需的时间戳。看看这个链接:

http://web.archive.org/cdx/search/cdx?url=archive.org&limit=5&showResumeKey=true

在这里解释:

https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#advanced-usage

然后,为了得到确认,这个url工作(使用python的请求):

w = requests.get('http://archive.org/wayback/available?url=archive.org&timestamp=997121112295')

或者您可以直接获取HTML:

w2 = requests.get('http://web.archive.org/web/20040324162136/http://www.globalgiving.org:80/')