我正在将一些较旧的代码从R转换为python。在此过程中,发现熊猫要比R慢一点。有兴趣知道我在做什么错。
R代码(在我的系统上大约需要2毫秒):
df = data.frame(col_a = sample(letters[1:3],20,T),
col_b = sample(1:2,20,T),
col_c = sample(letters[1:2],20,T),
col_d = sample(c(4,2),20,T)
)
microbenchmark::microbenchmark(
a = df %>%
group_by(col_a, col_b) %>%
summarise(
a = sum(col_c == 'a'),
b = sum(col_c == 'b'),
c = a/b
) %>%
ungroup()
)
熊猫(在我的系统上需要10毫秒):
df = pd.DataFrame({
'col_a': np.random.choice(['a','b','c'],N),
'col_b': np.random.choice([1,2],N),
'col_c': np.random.choice(['a', 'b'],N),
'col_d': np.random.choice(['4', '2'],N),
})
%%timeit
df1 = df.groupby(['col_a', 'col_b']).agg({
'col_c':[
('a',lambda x: (x=='a').sum()),
('b',lambda x: (x=='b').sum())
]}).reset_index()
df1['rat'] = df1.col_c.a/df1.col_c.b
答案 0 :(得分:1)
这不是一个技术性的答案,但值得注意的是,在Pandas中有很多不同的方法可以完成此操作,有些方法比其他方法更快。例如,下面的Pandas代码在大约5毫秒内即可获取您要查找的值(尽管有一些丑陋的MultiIndex列):
df.groupby(['col_a', 'col_b', 'col_c'])\
.count()\
.unstack()\
.assign(rat = lambda x: x.col_d.a/x.col_d.b)
4.96 ms ± 169 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
除了幕后加速之外,我认为tidyverse
语法与Pandas相比的主要速度优势在于,summarise()
将使每个新变量在同一调用内立即可用,这避免了必须spread
计数,然后计算rat
。
如果在Pandas中有类似的东西,我不知道。最接近的是pipe()
或lambda
中使用assign()
。链中的每个新函数调用都需要时间才能执行,因此Pandas最终会变慢。