使用grep / sed从具有特殊类/ id的html标记中提取数据

时间:2019-07-17 08:14:52

标签: sed grep

我需要从网站获取grep信息,并将其存储为:

<div class="name">Mark</div>
<div class="surname">John</div>
<div class="phone">8434</div>

试图grep并稍后使用sed对其进行解析:

grep -o '<div class="name">.*</div>' | sed -e 's?<div class="name">?|?g'

但是,当我尝试用sed -e 's?<\/div><div class="phone">?|?g'替换时-没有结果

并且对于每个班级都做同样的事情。我无法删除所有html标记(sed 's/<[^>]\+>//g'),仅需要针对具有此类的div进行操作。

输出格式应为

|Mark|John|8434|

我需要使用grep / sed

1 个答案:

答案 0 :(得分:0)

使用awk应该可以完成这项工作:

awk -F"[<>]" '{printf "%s|",$3}' file
Mark|John|8434|

如果您最后需要换行:

awk -F"[<>]" '{printf "%s|",$3} END {print ""}' file

它将创建以<>分隔的文件,然后以|作为分隔符打印第三个字段。