改善熊猫处理子集的性能

时间:2020-03-21 17:07:35

标签: python python-3.x pandas performance

希望大家在这个艰难的时刻都做得很好。

我有一个问题,是否有人可以帮助我。

我用熊猫完成了以下代码,以测试数据框是否具有足够的数据来开始计算:

def testa_liga(dados,data,liga,minimo_jogos):

    criterio = (dados["liga"] == liga) & (dados["data"] < data)
    dados = dados[criterio]
    dados = dados.sort_values(by=["data"],ascending=False)
    quantidade = len(dados.index)

    if quantidade >= minimo_jogos:

        minimo = True

    else:

        minimo = False

    return minimo

不仅如此,我还要进行许多其他验证。

所以我的问题是:有什么方法可以使其更快?

Pandas实在太慢了,以至于我正在考虑使用任务列表。

谢谢!

编辑:

我的数据框如下:

   liga       data         home      away    p1  p2  oddh  oddd   odda  
0  SP1     2007-11-03     Mallorca  Valencia  0   2  2.65  3.32   2.85 
.................. 

1 个答案:

答案 0 :(得分:0)

使用自定义函数来实现相同的计算和过滤。

这似乎是解决大型计算的一种非常有效的方法。