我有两个这样的文本文件格式的数据集。
第一列是用户ID,最后一列是功能。这两个文件的形状分别为(500k,3)和(480k,3)。第二个文件包含在第一个文件中。我要匹配相同的用户ID顺序并删除丢失的用户ID顺序。如何有效地做到这一点?
答案 0 :(得分:0)
下面几行内容应该可以解决。
import pandas as pd
df1 = pd.read_csv('your_file1.txt',sep=' ',names=['col1','col2','col3'])
df2 = pd.read_csv('your_file2.txt',sep=' ',names=['col1','col2','col3'])
df1.merge(df2,how='inner',on='col1')