您能指出我如何获取子文件夹中的所有HTML文件以及网站中的所有文件夹吗? 例如: www.K.com/goo
我想要所有的HTML文件:www.K.com/goo/1.html, ...... n.html
此外,如果有子文件夹,我也希望得到它们:www.K.com/goo/foo/1.html ... n.html
答案 0 :(得分:2)
假设您无权访问服务器的文件系统,那么除非每个目录都包含其包含的文件的索引,否则无法保证实现此目的。
通常的方法是使用网络抓取工具,并希望您想要的所有文件都链接到您找到的网页。
答案 1 :(得分:1)
查看lwp-mirror并跟随其发展。
答案 2 :(得分:0)
我建议使用wget程序下载网站而不是perl,它不太适合这个问题。
答案 3 :(得分:0)
CPAN上还有许多有用的模块,它们将命名为“Spider”或“Crawler”。但ishnid是对的。他们只能从网站上的某个位置找到链接的文件。他们找不到文件系统上的每个文件。
答案 4 :(得分:0)
您还可以使用curl从网站文件夹中获取所有文件。 查看this手册页并转到-o / - 输出部分,它为您提供了一个很好的理念。 我已经使用了几次。
答案 5 :(得分:-6)
阅读perldoc File::Find
,然后阅读use File::Find
。