Wget或Curl的用法。如何基于正则表达式的地址下载所有“ index.html”文件

时间:2019-06-15 19:36:20

标签: curl wget

我坚持简单的任务。这是我要执行的操作的伪代码:

wget -i https://somesite/jobs/companies/*/addresses/index.html -o myfolder

上面的伪代码应将公司的所有地址都放在我的文件夹中。地址的结构始终相同:https://somesite/jobs/companies/<SOMECOMPANY>/addresses/。我需要的是以某种方式告诉wget,或者如果愿意,可以卷曲基于模式来下载文件。

到目前为止,我已经尝试过:

wget -spider -r --user-agent="wget" --accept-regex=".*?/companies/.*?/addresses/.*?\.html" https://jobs.somesite.com/companies/

-spider选项告诉wget不要下载任何内容。目前,唯一的文件wget已被提取,地址为jobs.somesite.com/companies/index.html

问题是。如何使用上述架构制作公司地址列表?

1 个答案:

答案 0 :(得分:0)

我在regexp字符串中犯了一个错误或wget --accept-regex不理解文件扩展名过滤器。

接受并下载完整列表的命令是:

wget -m --user-agent="wget" -A="html" --regex-type=pcre --accept-regex=".*?/companies/.*?/offices/" https://jobs.somesite.com/companies/

该站点仍然提供动态的公司列表。因此,仅下载了列表的一部分:P