在大型制表符分隔文件中,获取一个字段的唯一值,在第二个字段中求和它们的值

时间:2013-01-29 21:33:09

标签: unique tab-delimited

第一篇文章,我通常潜伏,但我找不到任何适合我情况的东西。

所以,我有一个大的制表符分隔文件(约30亿行),每行有两个字段。一个是固定长度的字符串(10个字符,全部为alpha,全部大写),另一个是可变大小的整数。行之间第一个字段中的某些条目是相同的,如此

AAABBBCCCD    6
QQQQQQQQQQ    1
ZZZTOPZZZZ    299
AAABBBCCCD    14
JHFDSJKHFJ    2
ZZZTOPZZZZ    1

我想要做的是比较第一个字段中的值,找到唯一的值,并对这些唯一条目的每秒字段值求和,得到这样的输出,

AAABBBCCCD    20
QQQQQQQQQQ    1
ZZZTOPZZZZ    300
JHFDSJKHFJ    2

我不一定关心它们是否按整数值排序,但如果它们是真的很酷。不是一个优先事项。

我已经在perl中尝试了一些上运行的测试文件,但执行速度太慢而无法对真实内容有用。所以,是的,我对任何解决方案持开放态度,但如果有任何冷静/聪明的bash-fu能够胜任这一点,我对这一点特别感兴趣。

0 个答案:

没有答案