第一篇文章,我通常潜伏,但我找不到任何适合我情况的东西。
所以,我有一个大的制表符分隔文件(约30亿行),每行有两个字段。一个是固定长度的字符串(10个字符,全部为alpha,全部大写),另一个是可变大小的整数。行之间第一个字段中的某些条目是相同的,如此
AAABBBCCCD 6
QQQQQQQQQQ 1
ZZZTOPZZZZ 299
AAABBBCCCD 14
JHFDSJKHFJ 2
ZZZTOPZZZZ 1
我想要做的是比较第一个字段中的值,找到唯一的值,并对这些唯一条目的每秒字段值求和,得到这样的输出,
AAABBBCCCD 20
QQQQQQQQQQ 1
ZZZTOPZZZZ 300
JHFDSJKHFJ 2
我不一定关心它们是否按整数值排序,但如果它们是真的很酷。不是一个优先事项。
我已经在perl中尝试了一些在上运行的测试文件,但执行速度太慢而无法对真实内容有用。所以,是的,我对任何解决方案持开放态度,但如果有任何冷静/聪明的bash-fu能够胜任这一点,我对这一点特别感兴趣。