如何从URL没有定义文件名的网页下载所有列出的文件

时间:2011-10-28 15:15:28

标签: curl web-scraping wget

我想从此页面下载所有数据集:http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

我试过wget,但这是挑战:

URL链接到文件时没有文件名,它们可能有不同的文件类型。

以下是文件网址的示例:http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

模式是所有网址都以http:// www.data.gov/download/开头,以/ geodata结尾

刮掉这个网站的最佳方法是什么?我应该使用wget,cURL,PHP脚本还是别的什么?

1 个答案:

答案 0 :(得分:0)

为什么不能在这种情况下工作?根据您的示例URL,递归wget检索会将每个下载的文件放入其自己的目录中的文件“geodata”中。一旦它在您的本地磁盘上,您可以按照您想要的方式处理数据,包括重命名和将文件移动到更方便的形式(例如使用mmv或find -exec命令)。