Question

我正在使用pandas并希望选择数据子集并将其应用于其他列。 e.g。

如果A栏中有数据; ＆安培;
如果B栏中没有数据;
然后，将A列中的数据应用于D列

我现在使用.isnull()和.notnull()正常工作。例如

df = pd.DataFrame({'A' : pd.Series(np.random.randn(4)),
                       'B' : pd.Series(np.nan),
                       'C' : pd.Series(['yes','yes','no','maybe'])})
df['D']=''

df
Out[44]: 
          A   B      C D
0  0.516752 NaN    yes  
1 -0.513194 NaN    yes  
2  0.861617 NaN     no  
3 -0.026287 NaN  maybe  

# Now try the first conditional expression
df['D'][df['A'].notnull() & df['B'].isnull()] \
=  df['A'][df['A'].notnull() & df['B'].isnull()]   
df
Out[46]: 
          A   B      C          D
0  0.516752 NaN    yes   0.516752
1 -0.513194 NaN    yes  -0.513194
2  0.861617 NaN     no   0.861617
3 -0.026287 NaN  maybe -0.0262874

当添加第三个条件时，为了检查C列中的数据是否与特定字符串匹配，我们得到错误：

df['D'][df['A'].notnull() & df['B'].isnull() & df['C']=='yes'] \
=  df['A'][df['A'].notnull() & df['B'].isnull() & df['C']=='yes']   


  File "C:\Anaconda2\Lib\site-packages\pandas\core\ops.py", line 763, in wrapper
    res = na_op(values, other)

  File "C:\Anaconda2\Lib\site-packages\pandas\core\ops.py", line 718, in na_op
    raise TypeError("invalid type comparison")

TypeError: invalid type comparison

我已经读过这是因为数据类型不同而发生的。如果我在C列中更改整数或布尔值的所有字符串，我可以使它工作。我们也知道字符串本身可以工作，例如df['A'][df['B']=='yes']给出一个布尔列表。

因此，在这个条件表达式中组合这些数据类型时，如何/为什么这不起作用？什么是更加pythonic的方式来做看似啰嗦的事情？

由于

Answer 1

我认为您需要在条件中添加括号()，最好使用ix来选择具有布尔掩码的列，该列可以分配给变量mask：

mask = (df['A'].notnull()) & (df['B'].isnull()) & (df['C']=='yes')
print (mask)
0     True
1     True
2    False
3    False
dtype: bool

df.ix[mask, 'D'] = df.ix[mask, 'A']

print (df)
          A   B      C         D
0 -0.681771 NaN    yes -0.681771
1 -0.871787 NaN    yes -0.871787
2 -0.805301 NaN     no          
3  1.264103 NaN  maybe

Answer 2

万一这种解决方案对任何人都不起作用，发生在我身上的另一种情况是，即使我以dtype=str的形式读取所有数据（因此进行任何字符串比较都应该可以[即{ 1}}]），我有一列全为null的列，其类型变为df[col] == "some string"，与字符串进行比较时会出现错误。

要解决此问题，您可以使用float确保将字符串与字符串进行比较。

pandas表子集给出无效的类型比较错误

2 个答案: