Question

我坚持简单的任务。这是我要执行的操作的伪代码：

wget -i https://somesite/jobs/companies/*/addresses/index.html -o myfolder

上面的伪代码应将公司的所有地址都放在我的文件夹中。地址的结构始终相同：https://somesite/jobs/companies/<SOMECOMPANY>/addresses/。我需要的是以某种方式告诉wget，或者如果愿意，可以卷曲基于模式来下载文件。

到目前为止，我已经尝试过：

wget -spider -r --user-agent="wget" --accept-regex=".*?/companies/.*?/addresses/.*?\.html" https://jobs.somesite.com/companies/

-spider选项告诉wget不要下载任何内容。目前，唯一的文件wget已被提取，地址为jobs.somesite.com/companies/index.html。

问题是。如何使用上述架构制作公司地址列表？

Answer 1

我在regexp字符串中犯了一个错误或wget --accept-regex不理解文件扩展名过滤器。

接受并下载完整列表的命令是：

wget -m --user-agent="wget" -A="html" --regex-type=pcre --accept-regex=".*?/companies/.*?/offices/" https://jobs.somesite.com/companies/

该站点仍然提供动态的公司列表。因此，仅下载了列表的一部分：P