使用awk解析HTML代码段

时间:2013-11-07 14:35:42

标签: bash awk

我正在尝试使用 awk 解析HTML文档。

该文档包含多个<div class="p_header_bottom"></div

 <div class="p_header_bottom">
    <span class="fl_r"></span>
    287,489 people
  </div>
  <div class="p_header_bottom">
    <span class="fl_r"></span>
    5 links
  </div>

我正在使用

awk '/<div class="p_header_bottom">/,/<\/div>/'

接收所有这样的div。

我如何从第一个获得287,489号码?

实际上awk '/<\/span>/,/people/'无效。

1 个答案:

答案 0 :(得分:5)

使用,并假设每个<div> </div>块中的唯一数字和逗号出现在感兴趣的数字部分中

awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt