我正在Bash shell中使用quality_variant_[accession_name].txt
从Salk Arabidopsis 1001 Genomes site下载所有wget
文件。
.txt
文件运行以下命令,最终将输出感兴趣的文件(但由于--spider参数而未下载),表明wget
可以通过页面的超链接移动到我想要的文件。
wget --spider --recursive "http://signal.salk.edu/atg1001/download.php
我没有让命令运行足够长的时间来确定是否下载了感兴趣的文件,但是下面的命令确实开始递归下载站点。
# Arguments in brackets do not impact the performance of the command
wget -r [-e robots=off] [-m] [-np] [-nd] "http://signal.salk.edu/atg1001/download.php"
但是,无论何时使用.txt
,--accept-regex
或许多其他变体,只要尝试应用过滤器以提取感兴趣的--accept
文件,我都无法超越最初的{ {1}}文件。
.php
我可以列出一个登录名,并循环访问这些名称,以修改wget命令中的URL,但是我希望有一个动态的单行代码,即使随着时间的推移添加了登录ID,也可以提取所有感兴趣的文件。
谢谢!
注意:感兴趣的数据文件包含在目录# This and variants thereof do not work
wget -r -A "quality_variant_*.txt" "http://signal.salk.edu/atg1001/download.php"
# Returns:
# Saving to: ‘signal.salk.edu/atg1001/download.php.tmp’
# Removing signal.salk.edu/atg1001/download.php.tmp since it should be rejected.
中,该目录也是访问该URL时显示的http://signal.salk.edu/atg1001/data/Salk/
或静态HTML页面的目录。此URL不能在wget命令中使用,因为尽管感兴趣的数据文件包含在服务器端,但HTML页面不包含对这些文件的引用,而是链接到我不喜欢的一组.php
文件不想。