我有两个长文本文件(~50k行),其结构如下:
time index length a b c ...
所有这些都是整数。 'length'告诉我后面的数字(这里标记为'a','b','c',......),每行可以有不同的数字(并且对于同一行中的数字也不相同)两个文件)。这些数字是排序的。现在,我需要找到文件1的第1行中出现的数字“a”,“b”,“c”中有多少也出现在文件2的第1行中,依此类推整个文件。我和Pandas一起尝试了这个,但是可变数量的列给了我一些麻烦。
答案 0 :(得分:0)
这是一个想法:
这可能会对您有所帮助:
filea = "C:\file\path\a.txt"
myfilea = open(filea, 'r')
data=myfilea.readlines()
fileb = "C:\file\path\a.txt"
myfileb = open(fileb, 'r')
datb=myfileb.readlines()
for ia in range (0,len(data)):
linea = []
lineb = []
linea = data[ia].split()
lineb = datb[ia].split()
for x in range (0,len(linea)):
if(linea[x] in lineb):
print(str(linea[x])+" has been found")