Question

我正在使用XML文件，它给出了这样的输出：

<tag>data</tag>
<tag>more data</tag>
...

注意，这是一个平面文件，而不是XML树。我想删除XML标记，只显示其间的数据。我是从命令行做的所有这些，并且想知道是否有更好的方法而不是将它输入awk两次...

cat file.xml | awk -F'>' '{print $2}' | awk -F'<' '{print $1}'

理想情况下，我想在一个命令中执行此操作

Answer 1

如果您的文件看起来像那样，那么sed可以帮助您：

sed -e 's/<[^>]*>//g' file.xml

Answer 2

使用awk：

awk '{gsub(/<[^>]*>/,"")};1' file.xml

Answer 3

尝试一下：

grep -Po '<.*?>\K.*?(?=<.*?>)' inputfile

说明：

使用Perl兼容的正则表达式（-P）并仅输出指定的匹配项（-o）：

Answer 4

使用html2text命令行工具，将html转换为纯文本。

或者您可以尝试ex - 方式：

ex -s +'%s/<[^>].\{-}>//ge' +%p +q! file.txt

或：

cat file.txt | ex -s +'%s/<[^>].\{-}>//ge' +%p +q! /dev/stdin

Answer 5

我知道这不是“perlgolf竞赛”，但我曾经使用过这个技巧。

为<或>设置记录分隔符，然后只打印奇数行：

awk -vRS='<|>' NR%2 file.xml