我必须使用wget使用递归选项(-r
)下载网页中的所有文件。
此页面包含指向N个文件的N个直接链接(http://xxx.xxx.xxx.xxx/page/File_n.abc),但还包含其他N个“直接”链接(查询字符串)到theese文件(http://xxx.xxx.xxx.xxx/page/File_n.abc?cd=at)。
如何避免下载theese文件(与第一个相同)。
我尝试了-R *cd*
选项,但wget删除下载后的文件。
我注意到,使用选项-R *xyz*
,只有当“xyz”位于“?
”符号之前的链接部分时,程序才会下载任何包含“xyz”的文件。
否则程序将下载该文件, 将删除该文件。
wget 手册 说:“请注意,查询字符串(以问号开头的网址末尾的字符串) ('?')不作为接受/拒绝规则的文件名的一部分包含在内,即使它们实际上有助于为本地文件选择的名称。预计Wget的未来版本将提供允许匹配的选项反对查询字符串。“
有什么想法吗?