如何使用wget在网页中的特定标签之间抓取文本?

时间:2013-09-06 21:27:09

标签: wget

如何使用wget在网页中的特定标签之间抓取文本?搜索似乎没有发现wget特有的任何内容。提前谢谢。

2 个答案:

答案 0 :(得分:2)

这是卷曲非常有用的事情。

快速未经测试的哈克:

curl $url | grep $tag | sed -r 's/.*$tag([^<]+).*/\1/'

答案 1 :(得分:0)

使用wget下载文件,然后使用grep或正则表达式(sed)或某种外部HTML解析器(有很多很多)搜索它。 Wget本身无法做到这一点。

我建议使用XMLStarlet或Xidel。

Xidel:

xidel http://website.com  -e "css('a')"

只需使用CSS选择器选择特定标签(将选择器放在css('{selectors here}')内)。