我基本上想从导入的数据框中消除相反的数量。
我的解决方案是建立一个新的数据框,而忽略成对组合的行总和为零。
考虑以下数据框:
df = pd.DataFrame([
['31/07/17', 43020500, 13552.65],
['31/07/17', 43020500, 13552.65],
['31/07/17', 43020500, 13552.65],
['31/07/17', 43020500, 13552.65],
['31/08/17', 43020500, 241024.48],
['31/08/17', 43020500, 241024.48],
['31/08/17', 43020500, 241024.48],
['31/08/17', 43020500, 241024.48],
['31/08/17', 43020500, 241024.48],
['31/08/17', 43020500, -13552.65],
['31/08/17', 43020500, -13552.65],
['31/08/17', 43020500, -13552.65],
['31/08/17', 43020500, -13552.65],
['31/08/17', 43020500, -13552.65],
['30/06/17', 43020500, 133540.13],
], columns = ['Data', 'Account','Amount']
)
df
Out[34]:
Data Account Amount
0 31/07/17 43020500 13552.65
1 31/07/17 43020500 13552.65
2 31/07/17 43020500 13552.65
3 31/07/17 43020500 13552.65
4 31/08/17 43020500 241024.48
5 31/08/17 43020500 241024.48
6 31/08/17 43020500 241024.48
7 31/08/17 43020500 241024.48
8 31/08/17 43020500 241024.48
9 31/08/17 43020500 -13552.65
10 31/08/17 43020500 -13552.65
11 31/08/17 43020500 -13552.65
12 31/08/17 43020500 -13552.65
13 31/08/17 43020500 -13552.65
14 30/06/17 43020500 133540.13
预期结果是由索引4至8、13和14组成的新数据帧,但我的代码无法正常工作...
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
df = pd.read_excel('ContractAssets_copy.XLSX')
df.sort_values('Date')
dfToList = df['Amount'].tolist()
newdf = []
def index(a_list, value):
try:
return a_list.index(value)
except ValueError:
return None
for number in dfToList:
key = index(dfToList, dfToList[number] * -1)
if key == None:
newdf.append(df[number])
newdf
我该如何解决问题?
答案 0 :(得分:1)
请注意,例如您具有 13552.65 的 4 个值,但 相反的值( -13552.65 )是 5 。
因此,如果每个值仅消除了一个相对值,则在这种情况下为一个 应当保留负值(其他解决方案不尊重这一点 原则)。
从定义函数开始,以消除“不需要的”行(从 当前的行组):
def eliminate(grp):
grpSorted = grp.sort_values('Amount')
amt = grpSorted.Amount
nNeg = np.count_nonzero(amt.lt(0))
nPos = amt.size - nNeg
if nNeg == 0 or nPos == 0: # No opposite values
return grp
vDiff = nNeg - nPos
return grpSorted.head(vDiff) if vDiff > 0 else grpSorted.tail(-vDiff)
然后添加 AmountAbs 列:
df['AmountAbs'] = df.Amount.abs()
我们应该将行仅按 Amount 的绝对值分组。
最后,您可以进行所需的分组并将上述功能应用于 每组:
df.groupby('AmountAbs').apply(eliminate)\
.reset_index(level=0, drop=True)\
.drop(columns=['AmountAbs'])
上述说明中的“完成操作”涉及:
如果愿意,您可以在上述说明中添加.sort_index()
,
恢复原始的行顺序。
还有更短的解决方案,无需创建任何辅助列 (并将其放在最后)。
消除功能略有不同:
def elim(grp):
grpSorted = grp.sort_values('Amount')
amt = grpSorted.Amount
nNeg = np.count_nonzero(amt.lt(0)) # No of negative values
nPos = amt.size - nNeg # No of positive values
vDiff = nNeg - nPos
return grpSorted.head(vDiff) if vDiff > 0 else grpSorted.tail(-vDiff)
并应用它,运行:
df.groupby(lambda x: abs(df.loc[x, 'Amount']))\
.apply(elim).reset_index(level=0, drop=True)
答案 1 :(得分:0)
您可以尝试删除具有相反值的所有内容:
df =df[~df['Amount'].isin(-1*df['Amount'])]
df
Out[36]:
Data Account Amount
4 31/08/17 43020500 241024.48
5 31/08/17 43020500 241024.48
6 31/08/17 43020500 241024.48
7 31/08/17 43020500 241024.48
8 31/08/17 43020500 241024.48
14 30/06/17 43020500 133540.13