我正在解析.xml
个文件,寻找HTML标记内的名称。
我找到了我需要的东西,但我只想保留姓氏。
这是我迄今为止所拥有的(grep
命令,用于清除结果的名称+清除,其中包括删除标记和文件名,稍后我将对它们进行排序并仅保留唯一的名称):
grep -oP '<name>([A-ZÖÄÜÕŽS][a-zöäüõžš]*)[\s-]([A-ZÖÄÜÕŽS][a-zöäüõžš]*)</name>' *.xml --colour | sed -e 's/<[^>]*>//g' | sed 's/la[0-9]*//' | sed 's/$*.xml://'
输出如下:
Mart Kreos
Hans Väär
Karel Väär
Jaan Tibbin
Jüri Kull
我想保留姓氏,但删除名字。
我尝试使用以下命令,但它只适用于某些名称,而不适用于其他名称:
sed -r 's/([A-ZÖÄÜÕŽŠ][a-zöäüõžš]+[ ])([A-ZÖÄÜÕŽS][a-zöäüõžš]+)/\2/g'
答案 0 :(得分:1)