ArXiv复制头脑风暴

时间:2009-07-30 12:04:33

标签: pdf dataset sync

arXiv电子印刷档案有来自各个科学领域的数TB的论文。一些用户希望在他们自己的计算机上维护这些数据的完整副本,而其他用户只想下载特定类别的最新论文。他们希望使用某种分布式下载系统(例如BitTorrent)来减少带宽负荷。我正在寻找能够涵盖所有这些的程序或程序集的想法。

3 个答案:

答案 0 :(得分:1)

为了这个目的,在httpd加速器模式下

arXiv recommends squid。有什么特别的原因导致这不够好吗?

答案 1 :(得分:1)

完整的pdf内容在亚马逊云中。

虽然有>关于arXiv的600k文件,pdf的总大小是< 1/2 TB

http://arxiv.org/help/bulk_data_s3

吨。

答案 2 :(得分:0)

我的第一个想法是,这看起来很像Usenet新闻组,对服务器上的消息具有无限的持久性。不过,我不知道它对PDF的效果如何。