我正在学习编写网站刮刀的基础知识。下载网站后,我想在<tr>
和</tr>
之间提取信息。
$ cat < file
<tr><td>Adopt</td><td>H<u>a</u>nai</td></tr><tr><td>Affection</td><td>Pumehana</td></tr>
我的目标是得到这样的东西
$cat < clean
Adopt Hanai
Affection Pumehana
我想首先使用sed
在模式<tr>.*<\tr>
之后添加换行符,然后使用pattern&lt;。*&gt;删除所有内容。但不知道该怎么做。有什么建议吗?
答案 0 :(得分:0)
你可以这样做:
sed $'s/<\/tr><tr>/&\\\n/g; s/<\/td><td>/ /g; s/<[^>]*>//g' file
Adopt Hanai
Affection Pumehana
然而,最好使用专用的HTML解析器进行更复杂的HTML解析。