Question

我有大约20000个html文件，它们都包含指向.tex文件的链接（但它们也包含其他信息）。

我喜欢一个可以记录所有.tex文件的脚本，最好使用awk。 html文件包含如下所示的部分：

<a href="http://example.com/f/1q1m-20140227.tex"  ><img src="/images/save.png" save></a>

显然也包含其他内容的链接。

对不起，如果听起来我还没有研究过这个问题，我只是对正则表达式或awk一无所知。这是我到目前为止所得到的，但没有结果：

for i in {0..20}
do
    awk '/\bhttp[\w%+\/-]+?tex\b/' $i.htm >> final-test
done

提前感谢您提供的任何帮助！： - ）

Answer 1

正则表达式？为什么呢？

wget -i foo.htm -r -A .tex

Answer 2

谢谢你们，我最终根本没有使用awk。这就是我所做的：

for i in {1..20000}
do
    lynx -dump -listonly -nonumbers $i.htm >> all-links
done

cat all-links | grep .tex >> texlinks
wget -c -i texlinks

exit;

它并不完美，绝对不是很有效但它完成了工作。