如何使用Perl从网站子文件夹中获取所有HTML页面?

时间:2010-10-03 21:35:47

标签: perl web-scraping

您能指出我如何获取子文件夹中的所有HTML文件以及网站中的所有文件夹吗? 例如: www.K.com/goo

我想要所有的HTML文件:www.K.com/goo/1.html, ...... n.html

此外,如果有子文件夹,我也希望得到它们:www.K.com/goo/foo/1.html ... n.html

6 个答案:

答案 0 :(得分:2)

假设您无权访问服务器的文件系统,那么除非每个目录都包含其包含的文件的索引,否则无法保证实现此目的。

通常的方法是使用网络抓取工具,并希望您想要的所有文件都链接到您找到的网页。

答案 1 :(得分:1)

查看lwp-mirror并跟随其发展。

答案 2 :(得分:0)

我建议使用wget程序下载网站而不是perl,它不太​​适合这个问题。

答案 3 :(得分:0)

CPAN上还有许多有用的模块,它们将命名为“Spider”或“Crawler”。但ishnid是对的。他们只能从网站上的某个位置找到链接的文件。他们找不到文件系统上的每个文件。

答案 4 :(得分:0)

您还可以使用curl从网站文件夹中获取所有文件。 查看this手册页并转到-o / - 输出部分,它为您提供了一个很好的理念。 我已经使用了几次。

答案 5 :(得分:-6)

阅读perldoc File::Find,然后阅读use File::Find