在html标记之间提取数字

时间:2014-02-11 18:22:19

标签: regex bash sed awk grep

我想在HTML标记之间提取两种类型的数字:

>******</a></td>

*****是一个长度可变的数字[0-9] {1,5},可以通过逗号“311,3454”分隔(逗号也是必需的)

提取这些数字的最佳方法是什么? awk,sed,grep?

1 个答案:

答案 0 :(得分:1)

grep可以做到:

grep -Po '(?<=>)[0-9,]*(?=</a></td>)' file

它在></a></td>之间提取数字和逗号的组合。

测试

$ cat a
>234,23</a></td>
>234,23</b></td>

$ grep -Po '(?<=>)[0-9,]*(?=</a></td>)' a
234,23