Question

我有一个包含很多标签的HTML页面

<tr>
 <td> a </td>
</tr>

<tr>
 <td> a </td>
</tr>

<tr>
 <td> a </td>
</tr>

我需要单独grep所有这些块，留下所有其他内容（如一般文本）。

我在pcregrep上看到了其他一些帖子，但我不清楚。

有人可以用grep（或任何其他解决方案）帮助我吗？

Answer 1

您可以使用sed获取所有这些块：

$ sed -n '/<tr>/,/<\/tr>/p' input.html
<tr>
 <td> a </td>
</tr>
<tr>
 <td> a </td>
</tr>
<tr>
 <td> a </td>
</tr>

Answer 2

请参阅我对此previous question的回答。基本上，您使用grep s -z选项加上非常具体的正则表达式。