我有一个文本文件,其中用逗号(分号)分隔了值(.csv)和重复项。这是一个示例:
AA;1
AA;6
DD;8
CC;4
CC;7
CC;2
BB;6
BB;1
AA;3
EE;2
我想通过在每个组的开始<x>
和末</x>
处插入一个字符串来对第一列中的连续重复项进行分组(或像HTML中那样用标签包装这些组)。结果应如下例所示:
<x>
AA;1
AA;6
</x>
DD;8
<x>
CC;4
CC;7
CC;2
</x>
<x>
BB;6
BB;1
</x>
AA;3
EE;2
我认为,可以使用Perl Regex或sed来实现。但是我不知道如何在第一列中找到组的第一个和/或最后一个副本。有人可以帮我吗?