从网站以“.tex”结尾的Wget链接

时间:2014-03-05 01:22:21

标签: bash awk wget

我有大约20000个html文件,它们都包含指向.tex文件的链接(但它们也包含其他信息)。

我喜欢一个可以记录所有.tex文件的脚本,最好使用awk。 html文件包含如下所示的部分:

<a href="http://example.com/f/1q1m-20140227.tex"  ><img src="/images/save.png" save></a>

显然也包含其他内容的链接。

对不起,如果听起来我还没有研究过这个问题,我只是对正则表达式或awk一无所知。 这是我到目前为止所得到的,但没有结果:

for i in {0..20}
do
    awk '/\bhttp[\w%+\/-]+?tex\b/' $i.htm >> final-test
done

提前感谢您提供的任何帮助! : - )

2 个答案:

答案 0 :(得分:0)

正则表达式?为什么呢?

wget -i foo.htm -r -A .tex

答案 1 :(得分:0)

谢谢你们,我最终根本没有使用awk。这就是我所做的:

for i in {1..20000}
do
    lynx -dump -listonly -nonumbers $i.htm >> all-links
done

cat all-links | grep .tex >> texlinks
wget -c -i texlinks

exit;

它并不完美,绝对不是很有效但它完成了工作。