Pandas / Python相当于R中复杂的ifelse匹配

时间:2017-08-15 21:43:13

标签: python pandas if-statement match

我的目标是让熊猫等同于以下R代码:

var trigger = $('#menu-tabs ul li a'),
    container = $('#menu-container');

trigger.on('click', function () {

    var $this = $(this),
        target = $this.data('target');
     $('.active').removeClass('active');
    $(this).parent().addClass('active');


    container.load(target + '.php');


    return false;
});

如果df1列String_1的第n行中的值等于df2的第一列,其中df1的列String_2的第n行与df2的String_2匹配,则在新列String_1_check中为True,否则在String_1_check中为False。

df1在String_1和String_2中有许多相同值的实例,而df2在String_1中只有每个可能值的一个实例。 String_3不是唯一的。使用这些示例数据帧:

df1$String_1_check = ifelse(df1$String_1 == df2[match(df1$String_2, df2$String_2), 1], TRUE, FALSE)

所需的输出是:

df1 = pd.DataFrame({'String_1': ['string 1', 'string 1', 'string 2', 'string 3', 'string 1'], 'String_2': ['string a', 'string a', 'string b', 'string a', 'string c']})
df2 = pd.DataFrame({'String_3': ['string 1', 'string 2', 'string 3'], 'String_2': ['string a', 'string b', 'string c']})

   String_1  String_2
0  string 1  string a
1  string 1  string a
2  string 2  string b
3  string 3  string a
4  string 1  string c

   String_3  String_2
0  string 1  string a
1  string 2  string b
2  string 3  string c

我已尝试 String_1 String_2 String_1_check 0 string 1 string a True 1 string 1 string a True 2 string 2 string b True 3 string 3 string a False 4 string 1 string c False np.whereisin(现已弃用),但尚未找到解决方案。

4 个答案:

答案 0 :(得分:5)

将值重新分配回df1,就像您可以执行的原始R一样:

In []:
df1['String_1_check'] = df1.merge(df2, how='left')['String_3'] == df1['String_1']
df1

Out:
   String_1  String_2  String_1_check
0  string 1  string a            True
1  string 1  string a            True
2  string 2  string b            True
3  string 3  string a           False
4  string 1  string c           False

答案 1 :(得分:1)

合并两个数据帧并检查字符串1和3是否匹配(编辑以包含AChampion的建议):

dfnew = df1.merge(df2, how='left')
dfnew["String_1_check"] = (dfnew.String_1 == dfnew.String_3)
del dfnew["String_3"]
print(dfnew)
#   String_1  String_2 String_1_check
#0  string 1  string a           True
#1  string 1  string a           True
#2  string 3  string a          False
#3  string 2  string b           True
#4  string 1  string c          False

答案 2 :(得分:1)

您可以使用map而无需更改原始df

的顺序
df1['String_1_check']=list(zip(df1['String_1'],df1['String_2']))
df2.index=list(zip(df2['String_3'],df2['String_2']))
df2['Check']=True
df1['String_1_check']=df1['String_1_check'].map(df2['Check']).fillna(False)

Out[764]: 
   String_1  String_2  String_1_check
0  string 1  string a            True
1  string 1  string a            True
2  string 2  string b            True
3  string 3  string a           False
4  string 1  string c           False

答案 3 :(得分:1)

假设df2.String_3是唯一的,请从df2创建一个系列,并在map中使用它来与df1.String_2进行比较。这将是快速的,因为与map相比,merge是恒定时间查找。

如果df2.String_3 唯一,请注意OP要求我们只关注我们在df1.String_1找到第一个匹配项的行。这意味着我们可以使用df2.String_3

使drop_duplicates成为唯一的
df1.String_1.map(df2.set_index('String_3').String_2).eq(df1.String_2)

0     True
1     True
2     True
3    False
4    False
dtype: bool

非唯一性的修改版

df1.String_1.map(
    df2.drop_duplicates('String_3').set_index('String_3').String_2
).eq(df1.String_2)

使用pd.DataFrame.assign创建包含新列的df1副本。

df1.assign(
    String_1_check=df1.String_1.map(
        df2.drop_duplicates('String_3').set_index('String_3').String_2
    ).eq(df1.String_2)
)

   String_1  String_2  String_1_check
0  string 1  string a            True
1  string 1  string a            True
2  string 2  string b            True
3  string 3  string a           False
4  string 1  string c           False

<强>时序
在此模拟中,df2的大小是静态的。我不喜欢塑造独特的价值观 以下代码

enter image description here

pir = lambda df1, df2: df1.assign(String_1_check=df1.String_1.map(df2.drop_duplicates('String_3').set_index('String_3').String_2).eq(df1.String_2))
achamp = lambda df1, df2: df1.assign(String_1_check=df1.merge(df2, how='left').eval('String_3 == String_1'))

results = pd.DataFrame(
    index=pd.Index([10, 30, 100, 300, 1000, 3000, 10000, 30000]),
    columns='pir achamp'.split()
)

for i in results.index:
    d1 = pd.concat([df1] * i, ignore_index=True)
    for j in results.columns:
        stmt = '{}(d1, df2)'.format(j)
        setp = 'from __main__ import d1, df2, {}'.format(j)
        results.set_value(i, j, timeit(stmt, setp, number=20))

results.plot(loglog=True)