我想在HTML标记之间提取两种类型的数字:
>******</a></td>
*****
是一个长度可变的数字[0-9] {1,5},可以通过逗号“311,3454”分隔(逗号也是必需的)
提取这些数字的最佳方法是什么? awk,sed,grep?
答案 0 :(得分:1)
grep
可以做到:
grep -Po '(?<=>)[0-9,]*(?=</a></td>)' file
它在>
和</a></td>
之间提取数字和逗号的组合。
$ cat a
>234,23</a></td>
>234,23</b></td>
$ grep -Po '(?<=>)[0-9,]*(?=</a></td>)' a
234,23