使用grep从<div>容器标签中提取html </div>

时间:2011-07-17 14:41:15

标签: html grep

我有一个页面,其中包含不同作者的许多帖子。我想要帖子页面中来自用户A的帖子。

如何设置grep以查看作者页面中每个帖子的html块,然后将帖子的内容打印到文件中?帖子结构类似于

<!--Begin Msg Number #####-->

[useless junk i'm not interested in here]

<span class="author vcard"><a class="url fn" href='url here'>User A</a>&nbsp;</span>

[more junk]

<div class='post entry-content '>
                    <!--cached-some date string--> Here's the text I want to extract    
                </div>

[more junk]


<hr />

我认为结构类似于

grep /pattern/ output file 

但我是否需要明确告诉它只在

之间进行搜索
<!-- begin msg ... --> 

<hr /> 

标签绑定帖子,或者grep足够智能自动执行此操作?我担心当grep找到用户A的模式时,它会将所有帖子内容打印到文件而不是那个特定的文件。

1 个答案:

答案 0 :(得分:0)

如果所有帖子文字都在一行上,请尝试

grep /(author vcard|<!--cached-)/