我有一个页面,其中包含不同作者的许多帖子。我想要帖子页面中来自用户A的帖子。
如何设置grep以查看作者页面中每个帖子的html块,然后将帖子的内容打印到文件中?帖子结构类似于
<!--Begin Msg Number #####-->
[useless junk i'm not interested in here]
<span class="author vcard"><a class="url fn" href='url here'>User A</a> </span>
[more junk]
<div class='post entry-content '>
<!--cached-some date string--> Here's the text I want to extract
</div>
[more junk]
<hr />
我认为结构类似于
grep /pattern/ output file
但我是否需要明确告诉它只在
之间进行搜索<!-- begin msg ... -->
和
<hr />
标签绑定帖子,或者grep足够智能自动执行此操作?我担心当grep找到用户A的模式时,它会将所有帖子内容打印到文件而不是那个特定的文件。
答案 0 :(得分:0)
如果所有帖子文字都在一行上,请尝试
grep /(author vcard|<!--cached-)/