这是我的代码:
import pandas as pd
left = pd.DataFrame({'AID': [1, 2, 3, 4],
'D': [2011, 2011,0, 2011],
'R1': [0, 1, 0, 0],
'R2': [1, 0, 0, 0] })
right = pd.DataFrame({'AID': [1, 2, 3, 4],
'D': [2012, 0,0, 2012],
'R1': [0, 1, 0, 0],
'R2': [1, 0, 0, 0] })
result = left.merge(right, how = 'outer')
当我打印结果dataFrame时,整数值现在是浮点数:
AID D R1 R2
0 1.0 2011.0 0.0 1.0
1 2.0 2011.0 1.0 0.0
2 3.0 0.0 0.0 0.0
3 4.0 2011.0 0.0 0.0
4 1.0 2012.0 0.0 1.0
5 2.0 0.0 1.0 0.0
6 4.0 2012.0 0.0 0.0
如何防止这种情况?
答案 0 :(得分:2)
此错误已在 Pandas v0.19.0. 中修复:
<块引用>合并现在将保留连接键的 dtype
但请注意,您可以使用以下命令将数据框中的所有列转换为 int
dtype:
result = result.astype(int)
如果联接中有不匹配的记录,则此行为 does still occur,因此结果中有 NaN
。在这种情况下,您需要将 dtype 更改为 extension type 'Int64'
以处理 NaN
s:
result = result.astype('Int64')
答案 1 :(得分:0)
您可以将浮动转换回使用
result = left.merge(right, on='AID', how = 'outer')
result['D_x']=result['D_x'].astype('Int64')
result['R1_x']=result['R1_x'].astype('Int64')
result['R2_x']=result['R2_x'].astype('Int64')
result['D_y']=result['D_y'].astype('Int64')
result['R1_y']=result['R1_y'].astype('Int64')
result['R2_y']=result['R2_y'].astype('Int64')
如果数据有空或缺失数据
import numbers
import math
left = pd.DataFrame({'AID': [1, 2, 3, 4],
'D': [2011, 2011,0, 2011],
'R1': [0, 1, 0, 0],
'R2': [1, 0, 0, 0] })
right = pd.DataFrame({'AID': [1, 2, 3, 4],
'D': [2012, 0,0, 2012],
'R1': [0, 1, 0, 0],
'R2': [1, 0, 0, 0] })
result = left.merge(right, how = 'outer')
result['AID']=[int(val) if isinstance(val,numbers.Number) & (math.isnan(val)==False) else 0 for val in result['AID']]
result['D']=[int(val) if isinstance(val,numbers.Number) & (math.isnan(val)==False) else 0 for val in result['D']]
result['R1']=[int(val) if isinstance(val,numbers.Number) & (math.isnan(val)==False) else 0 for val in result['R1']]
result['R2']=[int(val) if isinstance(val,numbers.Number) & (math.isnan(val)==False) else 0 for val in result['R2']]
print(result)
print(result.isna())
输出
AID D R1 R2
0 1 2011 0 1
1 2 2011 1 0
2 3 0 0 0
3 4 2011 0 0
4 1 2012 0 1
5 2 0 1 0
6 4 2012 0 0
AID D R1 R2
0 False False False False
1 False False False False
2 False False False False
3 False False False False
4 False False False False
5 False False False False
6 False False False False
然后您可以将 nan 值替换为:均值、0 或插值值
固定列 D
def interpolate_list(y):
idx = np.nonzero(y)
x = np.arange(len(y))
interp = interp1d(x[idx],y[idx])
new_values = interp(x)
return new_values
interp_d=interpolate_list(np.array(result['D']))
data=list(zip(interp_d,result['D']))
result['D']=[item[0] if item[1]==0 else item[1] for item in data]
print(result)
输出
AID D R1 R2
0 1 2011.0 0 1
1 2 2011.0 1 0
2 3 2011.0 0 0
3 4 2011.0 0 0
4 1 2012.0 0 1
5 2 2012.0 1 0
6 4 2012.0 0 0