我有大约20000个html文件,它们都包含指向.tex文件的链接(但它们也包含其他信息)。
我喜欢一个可以记录所有.tex文件的脚本,最好使用awk。 html文件包含如下所示的部分:
<a href="http://example.com/f/1q1m-20140227.tex" ><img src="/images/save.png" save></a>
显然也包含其他内容的链接。
对不起,如果听起来我还没有研究过这个问题,我只是对正则表达式或awk一无所知。 这是我到目前为止所得到的,但没有结果:
for i in {0..20}
do
awk '/\bhttp[\w%+\/-]+?tex\b/' $i.htm >> final-test
done
提前感谢您提供的任何帮助! : - )
答案 0 :(得分:0)
正则表达式?为什么呢?
wget -i foo.htm -r -A .tex
答案 1 :(得分:0)
谢谢你们,我最终根本没有使用awk。这就是我所做的:
for i in {1..20000}
do
lynx -dump -listonly -nonumbers $i.htm >> all-links
done
cat all-links | grep .tex >> texlinks
wget -c -i texlinks
exit;
它并不完美,绝对不是很有效但它完成了工作。