标签: python pandas numpy
我正在建立一个处理非常大的熊猫数据框的代码库,并使用自定义函数创建其他列。我不确定是否应该在列上使用numpy.where,numpy.select还是尝试使用多个条件列表推导或将多个列应用于自定义函数的方法。
本质上,我正在尝试考虑设置代码以实现最大计算/时间效率的理想方法。
我一直在使用如下功能:
def(x): return np.where(x > 5, x, 0)
,并且意识到在计时之后这是超级无效的,因为numpy通常在列上变得更加高效。
请参阅上面