当执行类似(看似简单)的操作时,我曾多次观察到熊猫函数速度的巨大差异。 例如,在下面的三个中,前两个在具有几百万行的数据集上使用时速度非常慢,而最后一个在几秒钟内执行(这些解法取自String concatenation of two pandas columns:
df["C"] = df[["A", "B"]].agg("/".join, axis = 1)
df = df.assign(C = df.apply(lambda row: row.A + "/" + row.B, axis = 1))
df["C"] = df.A + "/" + df.B
这带来了一个实际问题:在较大的样本上尝试(可能由其他人尝试)时,在较小的数据样本上测试的代码可能效率极低。
是否有 slow 和 fast 熊猫函数列表?也许我不了解有关熊猫如何处理数据的一些基本事实?