如何通过字典s
替换Pandas系列d
中的值已被多次询问和重新询问。
推荐的方法(1,2,3,4)要么使用s.replace(d)
,要么偶尔使用s.map(d)
如果在字典键中找到所有系列值。
然而,使用s.replace
的性能通常非常慢,通常比简单的列表理解慢5-10倍。
替代方案s.map(d)
具有良好的性能,但仅在字典中找到所有密钥时才推荐使用。
为什么s.replace
如此缓慢以及如何改善效果?
import pandas as pd, numpy as np
df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit [d.get(i, i) for i in lst] # 243ms
注意:此问题未标记为重复,因为它正在寻找有关何时使用给定不同数据集的不同方法的具体建议。这在答案中是明确的,并且是在其他问题中通常不会解决的问题。
答案 0 :(得分:15)
一个简单的解决方案是选择一种方法,该方法取决于对字典键完全覆盖值的估计。
一般情况
df['A'].map(d)
;或df['A'].map(d).fillna(df['A']).astype(int)
。很少,例如< 5%,d
中的值df['A'].replace(d)
"交叉点"约5%是特定于下面的基准测试。
有趣的是,在任一场景中,简单的列表理解通常都不如map
。
<强>基准强>
import pandas as pd, numpy as np
df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 - Full Map #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit df['A'].map(d) # 84.3ms
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 - Partial Map #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int) # 111ms
%timeit [d.get(i, i) for i in lst] # 243ms
<强>解释强>
s.replace
如此之慢的原因在于它不仅仅是简单地映射字典。它涉及一些边缘案例和可以说是罕见的情况,在任何情况下通常都值得更加谨慎。
这是pandas\generic.py
中replace()
的摘录。
items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]
if any(are_mappings):
# handling of nested dictionaries
else:
to_replace, value = keys, values
return self.replace(to_replace, value, inplace=inplace,
limit=limit, regex=regex)
似乎涉及很多步骤:
这可以与pandas\series.py
中来自map()
的更精简的代码进行比较:
if isinstance(arg, (dict, Series)):
if isinstance(arg, dict):
arg = self._constructor(arg, index=arg.keys())
indexer = arg.index.get_indexer(values)
new_values = algos.take_1d(arg._values, indexer)