我正在尝试从网站下载大量连续文件,但我只需要包含特定单词的文件。我现在在做什么:我正在下载所有这样的文件:
wget http://host/file/{0..100000}.html
我需要检查输出,如果它包含“短语”,请将其下载到我的硬盘。请指出正确的方向。
答案 0 :(得分:1)
无法下载文件/网页的内容,即使它只是临时下载,也无法检查文件/网页的内容。一个简单的解决方法是使用一个脚本来下载文件,检查任何关键字,如果有,则保留文件否则丢弃它。像这样:
for i in `seq 100000`;
do
wget http://host/file/$i.html
grep KEYWORD $i.html
if [[ $? -eq 0 ]]
then
echo "File $i.html was kept"
else
echo "File $i.html will be deleted"
rm -f $i.html
fi
done;
**正如免责声明:我没有测试上面的脚本,但它应该是一个很好的例子。