应用错误收集

时间：2011-10-28 15:15:28

标签： curl web-scraping wget

我试过wget，但这是挑战：

URL链接到文件时没有文件名，它们可能有不同的文件类型。

模式是所有网址都以http：// www.data.gov/download/开头，以/ geodata结尾

刮掉这个网站的最佳方法是什么？我应该使用wget，cURL，PHP脚本还是别的什么？

答案 0 :(得分：0)

为什么不能在这种情况下工作？根据您的示例URL，递归wget检索会将每个下载的文件放入其自己的目录中的文件“geodata”中。一旦它在您的本地磁盘上，您可以按照您想要的方式处理数据，包括重命名和将文件移动到更方便的形式（例如使用mmv或find -exec命令）。