Wayback机器提供了一个API,允许您下载信息。实际上有多个API,在搜索几个小时后,我真的无法做到以下几点:
使用wayback machine API,我想获得 06/06/15索引的所有域名列表。
我已阅读此处的文档
https://archive.org/help/wayback_api.php
但我找不到......
我期待这样的事情发挥作用:
http://archive.org/wayback/available?url=*×tamp=20150606
答案 0 :(得分:2)
按照设计,不可能做你想要的(?url = *)。您要求我们通过36 TB的数据来查找大量的数据;它不是我们的查询引擎支持的查询。
答案 1 :(得分:0)
这是一个工作示例,请检查以下内容:
确保您拥有正确的时间戳值
这些是我用来生成网址的行。它在python中:
url = "http://sourceforge.net/projects/"+name.rstrip()
wbm_url = 'http://archive.org/wayback/available?url='+url+'×tamp=20131006000000'
答案 2 :(得分:0)
自2013年以来,可能会有一个答案,说明如何获取获取网站的特定存档副本所需的时间戳。看看这个链接:
http://web.archive.org/cdx/search/cdx?url=archive.org&limit=5&showResumeKey=true
在这里解释:
https://github.com/internetarchive/wayback/tree/master/wayback-cdx-server#advanced-usage
然后,为了得到确认,这个url工作(使用python的请求):
w = requests.get('http://archive.org/wayback/available?url=archive.org×tamp=997121112295')
或者您可以直接获取HTML:
w2 = requests.get('http://web.archive.org/web/20040324162136/http://www.globalgiving.org:80/')