获取archive.org保存的最新版本文件

时间:2013-04-05 18:37:11

标签: api rest web web-scraping archive

我有一套收获的原子饲料。其中一些有几年,有些帖子链接到不再存在的图像。

有没有办法让Way Back Machine保留最新版本?

我知道我可以手动完成,但我想自动完成这个过程。 archive.org提供了一个安静的API,但据我所知,它似乎没有提供我需要的特定调用。我想我总是可以回退到网络报废,但我更喜欢更优雅的解决方案,如果有的话。

1 个答案:

答案 0 :(得分:0)

想出来。要获取文件的最新版本,您只需GET URL(不要忘记检查HTTP状态代码是否为200):

http://web.archive.org/web/form-submit.jsp?type=replay&url=<file_url>