我想知道你们是否对如何有效地进行这项工作有任何意见,我目前使用Python的集合类进行实现。
答案 0 :(得分:2)
这取决于你有多少可用内存(当然还有文件的大小)。
如果你有足够的可用内存,我只需要采取简单的方法并创建所有项目的列表,并对它们进行sort()
。
这样的事情:
# Read all except the first (header) lines
lines = file('1.txt').readlines()[1:]
lines += file('2.txt').readlines()[1:]
lines.sort(key=lambda x: int(x.split()[0]))
print ''.join(lines)
lambda的替代方案:
def key(x):
return int(x.split()[0])
答案 1 :(得分:1)
>>> from itertools import islice
>>> from operator import itemgetter
>>> files = ('1.txt','2.txt')
>>> lines = (map(int,line.split()) for f in files
for line in islice(open(f),1,None))
>>> sorted(lines,key=itemgetter(0))
[[1, 23112, 3], [2, 32344, 1], [12, 19872, 0], [123, 12243, 1], [221, 39873, 5], [234, 34555, -4]]