如何在数据框中匹配相反的值?

时间:2019-07-27 00:37:56

标签: python pandas list indexing find

我基本上想从导入的数据框中消除相反的数量。

我的解决方案是建立一个新的数据框,而忽略成对组合的行总和为零。

考虑以下数据框:

df = pd.DataFrame([
    ['31/07/17', 43020500, 13552.65],
    ['31/07/17', 43020500, 13552.65],
    ['31/07/17', 43020500, 13552.65],
    ['31/07/17', 43020500, 13552.65],
    ['31/08/17', 43020500, 241024.48],
    ['31/08/17', 43020500, 241024.48],
    ['31/08/17', 43020500, 241024.48],
    ['31/08/17', 43020500, 241024.48],
    ['31/08/17', 43020500, 241024.48],
    ['31/08/17', 43020500, -13552.65],
    ['31/08/17', 43020500, -13552.65],
    ['31/08/17', 43020500, -13552.65],
    ['31/08/17', 43020500, -13552.65],
    ['31/08/17', 43020500, -13552.65],
    ['30/06/17', 43020500, 133540.13],
], columns = ['Data', 'Account','Amount']
)

df
Out[34]: 
        Data   Account     Amount
0   31/07/17  43020500   13552.65
1   31/07/17  43020500   13552.65
2   31/07/17  43020500   13552.65
3   31/07/17  43020500   13552.65
4   31/08/17  43020500  241024.48
5   31/08/17  43020500  241024.48
6   31/08/17  43020500  241024.48
7   31/08/17  43020500  241024.48
8   31/08/17  43020500  241024.48
9   31/08/17  43020500  -13552.65
10  31/08/17  43020500  -13552.65
11  31/08/17  43020500  -13552.65
12  31/08/17  43020500  -13552.65
13  31/08/17  43020500  -13552.65
14  30/06/17  43020500  133540.13

data frame example

预期结果是由索引4至8、13和14组成的新数据帧,但我的代码无法正常工作...

import numpy as np
import pandas as pd

pd.options.display.float_format = '{:,.2f}'.format

df = pd.read_excel('ContractAssets_copy.XLSX')
df.sort_values('Date')

dfToList = df['Amount'].tolist()

newdf = []

def index(a_list, value):
    try:
        return a_list.index(value)
    except ValueError:
        return None

for number in dfToList:
    key = index(dfToList, dfToList[number] * -1)
    if key == None:
        newdf.append(df[number])

newdf

我该如何解决问题?

2 个答案:

答案 0 :(得分:1)

请注意,例如您具有 13552.65 4 个值,但 相反的值( -13552.65 )是 5

因此,如果每个值仅消除了一个相对值,则在这种情况下为一个 应当保留负值(其他解决方案不尊重这一点 原则)。

从定义函数开始,以消除“不需要的”行(从 当前的行组):

def eliminate(grp):
    grpSorted = grp.sort_values('Amount')
    amt = grpSorted.Amount
    nNeg = np.count_nonzero(amt.lt(0))
    nPos = amt.size - nNeg
    if nNeg == 0 or nPos == 0:  # No opposite values
        return grp
    vDiff = nNeg - nPos
    return grpSorted.head(vDiff) if vDiff > 0 else grpSorted.tail(-vDiff)

然后添加 AmountAbs 列:

df['AmountAbs'] = df.Amount.abs()

我们应该将行仅按 Amount 的绝对值分组。

最后,您可以进行所需的分组并将上述功能应用于 每组:

df.groupby('AmountAbs').apply(eliminate)\
    .reset_index(level=0, drop=True)\
    .drop(columns=['AmountAbs'])

上述说明中的“完成操作”涉及:

  • 从索引中删除 AmountAbs (仅保留原始索引),
  • 删除 AmountAbs 列。

如果愿意,您可以在上述说明中添加.sort_index(), 恢复原始的行顺序。

编辑

还有更短的解决方案,无需创建任何辅助列 (并将其放在最后)。

消除功能略有不同:

def elim(grp):
    grpSorted = grp.sort_values('Amount')
    amt = grpSorted.Amount
    nNeg = np.count_nonzero(amt.lt(0))  # No of negative values
    nPos = amt.size - nNeg              # No of positive values
    vDiff = nNeg - nPos
    return grpSorted.head(vDiff) if vDiff > 0 else grpSorted.tail(-vDiff)

并应用它,运行:

df.groupby(lambda x: abs(df.loc[x, 'Amount']))\
    .apply(elim).reset_index(level=0, drop=True)

答案 1 :(得分:0)

您可以尝试删除具有相反值的所有内容:

df =df[~df['Amount'].isin(-1*df['Amount'])]

df
Out[36]: 
        Data   Account     Amount
4   31/08/17  43020500  241024.48
5   31/08/17  43020500  241024.48
6   31/08/17  43020500  241024.48
7   31/08/17  43020500  241024.48
8   31/08/17  43020500  241024.48
14  30/06/17  43020500  133540.13