我坚持简单的任务。这是我要执行的操作的伪代码:
wget -i https://somesite/jobs/companies/*/addresses/index.html -o myfolder
上面的伪代码应将公司的所有地址都放在我的文件夹中。地址的结构始终相同:https://somesite/jobs/companies/<SOMECOMPANY>/addresses/
。我需要的是以某种方式告诉wget,或者如果愿意,可以卷曲基于模式来下载文件。
到目前为止,我已经尝试过:
wget -spider -r --user-agent="wget" --accept-regex=".*?/companies/.*?/addresses/.*?\.html" https://jobs.somesite.com/companies/
-spider
选项告诉wget不要下载任何内容。目前,唯一的文件wget
已被提取,地址为jobs.somesite.com/companies/index.html
。
问题是。如何使用上述架构制作公司地址列表?
答案 0 :(得分:0)
我在regexp
字符串中犯了一个错误或wget
--accept-regex
不理解文件扩展名过滤器。
接受并下载完整列表的命令是:
wget -m --user-agent="wget" -A="html" --regex-type=pcre --accept-regex=".*?/companies/.*?/offices/" https://jobs.somesite.com/companies/
该站点仍然提供动态的公司列表。因此,仅下载了列表的一部分:P