Question

我有两个这样的文本文件格式的数据集。

第一列是用户ID，最后一列是功能。这两个文件的形状分别为（500k，3）和（480k，3）。第二个文件包含在第一个文件中。我要匹配相同的用户ID顺序并删除丢失的用户ID顺序。如何有效地做到这一点？

Answer 1

下面几行内容应该可以解决。

import pandas as pd

df1 = pd.read_csv('your_file1.txt',sep=' ',names=['col1','col2','col3'])
df2 = pd.read_csv('your_file2.txt',sep=' ',names=['col1','col2','col3'])

df1.merge(df2,how='inner',on='col1')

如何使用熊猫匹配数据顺序

1 个答案: