应用错误收集

时间：2010-10-03 21:35:47

标签： perl web-scraping

您能指出我如何获取子文件夹中的所有HTML文件以及网站中的所有文件夹吗？例如： www.K.com/goo

我想要所有的HTML文件：www.K.com/goo/1.html, ...... n.html

此外，如果有子文件夹，我也希望得到它们：www.K.com/goo/foo/1.html ... n.html

答案 0 :(得分：2)

假设您无权访问服务器的文件系统，那么除非每个目录都包含其包含的文件的索引，否则无法保证实现此目的。

通常的方法是使用网络抓取工具，并希望您想要的所有文件都链接到您找到的网页。

答案 1 :(得分：1)

查看lwp-mirror并跟随其发展。

答案 2 :(得分：0)

我建议使用wget程序下载网站而不是perl，它不太适合这个问题。

答案 3 :(得分：0)

CPAN上还有许多有用的模块，它们将命名为“Spider”或“Crawler”。但ishnid是对的。他们只能从网站上的某个位置找到链接的文件。他们找不到文件系统上的每个文件。

答案 4 :(得分：0)

您还可以使用curl从网站文件夹中获取所有文件。查看this手册页并转到-o / - 输出部分，它为您提供了一个很好的理念。我已经使用了几次。

答案 5 :(得分：-6)

阅读perldoc File::Find，然后阅读use File::Find。