使用脚本搜索并打印标签内的值

时间:2014-02-18 08:05:26

标签: sed awk hp-ux

我有这样的文件。 abc.txt

<ra><r>12.34</r><e>235</e><a>34.908</a><r>23</r><a>234.09</a><p>234</p><a>23</a></ra>
<hello>sadfaf</hello>
<hi>hiisadf</hi>
<ra><s>asdf</s><qw>345</qw><a>345</a><po>234</po><a>345</a></ra>

我必须要做的是我必须找到<ra>标记,而对于<ra>内部标记,有<a>标记,其中我必须将值存储到某些变量中我需要进一步处理。我该怎么办呢?

标签内标签内的值为:
34.908,234.09,23
345,345

2 个答案:

答案 0 :(得分:2)

awk应该:

cat file
<ra><r>12.34</r><e>235</e><a>34.908</a><r>23</r><a>234.09</a><p>234</p><a>23</a></ra><a>12344</a><ra><e>45</e><a>666</a></ra>
<hello>sadfaf</hello>
<hi>no print from this line</hi><a>256</a>
<ra><s>asdf</s><qw>345</qw><a>345</a><po>234</po><a>345</a></ra>

awk -v RS="<" -F">" '/^ra/,/\/ra/ {if (/^a>/) print $2}' file
34.908
234.09
23
666
345
345

如果一行中有多个<ra>...</ra>组,则需要注意。


一个小变化:

awk -v RS=\< -F\> '/\/ra/ {f=0} f&&/^a/ {print $2} /^ra/ {f=1}' file
34.908
234.09
23
666
345
345

它是如何运作的:

awk -v RS="<" -F">" '   # This sets record separator to < and gives a new line for every <
/^ra/,/\/ra/ {          # within the record starting witn "ra" to record ending with "/ra" do
    if (/^a>/)          # if line starts with an "a" do
    print $2}'          # print filed 2

要了解更改RS的工作原理,请尝试:

awk -v RS="<" '$1=$1' file
ra>
r>12.34
/r>
e>235
/e>
a>34.908
/a>
r>23
/r>
a>234.09
/a>
p>234
...

将它存储在宝马建议的变量中:

var=$(awk ...)
var=$(awk -v RS=\< -F\> '/\/ra/ {f=0} f&&/^a/ {print $2} /^ra/ {f=1}' file)
echo $var
34.908 234.09 23 666 345 345
echo "$var"
34.908
234.09
23
666
345
345

由于它有很多值,你可以使用数组:

array=($(awk -v RS=\< -F\> '/\/ra/ {f=0} f&&/^a/ {print $2} /^ra/ {f=1}' file))
echo ${array[2]}
23
echo ${var2[0]}
34.908
echo ${var2[*]}
34.908 234.09 23 666 345 345

答案 1 :(得分:1)

使用gnu grep的Lookahead和Lookbehind Zero-Length Assertions

grep -oP "(?<=<ra>).*?(?=</ra>)" file |grep -Po "(?<=<a>).*?(?=</a>)"

解释

  • 第一个grep将获取ra标记中的内容。即使在一行中有几个ra标签,它仍然可以识别。

  • 第二个grep获取a标记

  • 中的内容