如何使用wget在网页中的特定标签之间抓取文本?搜索似乎没有发现wget特有的任何内容。提前谢谢。
答案 0 :(得分:2)
这是卷曲非常有用的事情。
快速未经测试的哈克:
curl $url | grep $tag | sed -r 's/.*$tag([^<]+).*/\1/'
答案 1 :(得分:0)
使用wget下载文件,然后使用grep或正则表达式(sed)或某种外部HTML解析器(有很多很多)搜索它。 Wget本身无法做到这一点。
我建议使用XMLStarlet或Xidel。
Xidel:
xidel http://website.com -e "css('a')"
只需使用CSS选择器选择特定标签(将选择器放在css('{selectors here}')
内)。