如何根据列列表值和其他列中的值添加大熊猫“匹配”?

时间:2020-06-02 13:49:02

标签: python pandas list conditional-statements matching

我有一个数据框,其中包含一列,其中包含名为Multiple_IDS的标识符列表和一列名为ID的列。现在,我想创建一个名为“ Match”的附加列,该列告诉天气在Multiple_IDs列中是否包含一个ID。输出应该是称为Match的附加列,其中包含True或False值。这里是一些示例输入数据:

data = {'ID':[2128441, 2128447, 2128500], 'Multiple_IDs':["2128442, 2128443, 2128444, 2128441", "2128446, 2128447", "2128503, 2128508"]}
df = pd.DataFrame(data) 

列表的数据类型为“对象”。

根据上面提供的输入数据,期望输出将是这个。

enter image description here

我知道我可以使用explode进行比较,然后比较这些值,但是我想知道是否还有更优雅的方法?

2 个答案:

答案 0 :(得分:1)

如果可能的测试中使用in语句,而无需将每个ID分开:

df['Match'] = [str(x) in y for x, y in df[['ID','Multiple_IDs']].to_numpy()]
print (df)
        ID                        Multiple_IDs  Match
0  2128441  2128442, 2128443, 2128444, 2128441   True
1  2128447                    2128446, 2128447   True
2  2128500                    2128503, 2128508  False

或者:

df['Match'] = df.apply(lambda x: str(x['ID']) in x['Multiple_IDs'], axis=1)
print (df)
        ID                        Multiple_IDs  Match
0  2128441  2128442, 2128443, 2128444, 2128441   True
1  2128447                    2128446, 2128447   True
2  2128500                    2128503, 2128508  False

另一个想法是通过分割值进行匹配:

df['Match'] = [str(x) in y.split(', ') for x, y in df[['ID','Multiple_IDs']].to_numpy()]

df['Match'] = df.apply(lambda x: str(x['ID']) in x['Multiple_IDs'].split(', '), axis=1)

答案 1 :(得分:1)

我会做什么

s=pd.DataFrame(df.Multiple_IDs.str.split(', ').tolist(),index=df.index).eq(df.ID.astype(str),axis=0).any(1)
Out[10]: 
0     True
1     True
2    False
dtype: bool
df['Match']=s