我想从此页面下载所有数据集:http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20
我试过wget,但这是挑战:
URL链接到文件时没有文件名,它们可能有不同的文件类型。
以下是文件网址的示例:http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata
模式是所有网址都以http:// www.data.gov/download/开头,以/ geodata结尾
刮掉这个网站的最佳方法是什么?我应该使用wget,cURL,PHP脚本还是别的什么?
答案 0 :(得分:0)
为什么不能在这种情况下工作?根据您的示例URL,递归wget检索会将每个下载的文件放入其自己的目录中的文件“geodata”中。一旦它在您的本地磁盘上,您可以按照您想要的方式处理数据,包括重命名和将文件移动到更方便的形式(例如使用mmv或find -exec命令)。