通过字典有效地替换pandas系列中的值

时间:2018-03-13 15:08:28

标签: python python-3.x pandas dictionary dataframe

如何通过字典s替换Pandas系列d中的值已被多次询问和重新询问。

推荐的方法(1234)要么使用s.replace(d),要么偶尔使用s.map(d)如果在字典键中找到所有系列值。

然而,使用s.replace的性能通常非常慢,通常比简单的列表理解慢5-10倍。

替代方案s.map(d)具有良好的性能,但仅在字典中找到所有密钥时才推荐使用。

为什么s.replace如此缓慢以及如何改善效果?

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

注意:此问题未标记为重复,因为它正在寻找有关何时使用给定不同数据集的不同方法的具体建议。这在答案中是明确的,并且是在其他问题中通常不会解决的问题。

1 个答案:

答案 0 :(得分:15)

一个简单的解决方案是选择一种方法,该方法取决于对字典键完全覆盖值的估计。

一般情况

  • 如果映射了所有值,请使用df['A'].map(d);或
  • 如果> 5%值已映射,请使用df['A'].map(d).fillna(df['A']).astype(int)

很少,例如< 5%,d

中的值
  • 使用df['A'].replace(d)

"交叉点"约5%是特定于下面的基准测试。

有趣的是,在任一场景中,简单的列表理解通常都不如map

<强>基准

import pandas as pd, numpy as np

df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()

##### TEST 1 - Full Map #####

d = {i: i+1 for i in range(1000)}

%timeit df['A'].replace(d)                          # 1.98s
%timeit df['A'].map(d)                              # 84.3ms
%timeit [d[i] for i in lst]                         # 134ms

##### TEST 2 - Partial Map #####

d = {i: i+1 for i in range(10)}

%timeit df['A'].replace(d)                          # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int)  # 111ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

<强>解释

s.replace如此之慢的原因在于它不仅仅是简单地映射字典。它涉及一些边缘案例和可以说是罕见的情况,在任何情况下通常都值得更加​​谨慎。

这是pandas\generic.pyreplace()的摘录。

items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]

if any(are_mappings):
    # handling of nested dictionaries
else:
    to_replace, value = keys, values

return self.replace(to_replace, value, inplace=inplace,
                    limit=limit, regex=regex)

似乎涉及很多步骤:

  • 将字典转换为列表。
  • 遍历列表并检查嵌套词典。
  • 将键和值的迭代器提供给替换函数。

这可以与pandas\series.py中来自map()的更精简的代码进行比较:

if isinstance(arg, (dict, Series)):
    if isinstance(arg, dict):
        arg = self._constructor(arg, index=arg.keys())

    indexer = arg.index.get_indexer(values)
    new_values = algos.take_1d(arg._values, indexer)