如何在文本列中查找连续的重复项并使用标​​签包装已创建的组

时间:2018-11-27 18:42:01

标签: xml csv duplicates

我有一个文本文件,其中用逗号(分号)分隔了值(.csv)和重复项。这是一个示例:

AA;1
AA;6
DD;8
CC;4
CC;7
CC;2
BB;6
BB;1
AA;3
EE;2  

我想通过在每个组的开始<x>和末</x>处插入一个字符串来对第一列中的连续重复项进行分组(或像HTML中那样用标签包装这些组)。结果应如下例所示:

<x>
AA;1
AA;6
</x>
DD;8
<x>
CC;4
CC;7
CC;2
</x>
<x>
BB;6
BB;1
</x>
AA;3
EE;2  

我认为,可以使用Perl Regex或sed来实现。但是我不知道如何在第一列中找到组的第一个和/或最后一个副本。有人可以帮我吗?

0 个答案:

没有答案