Question

说我有以下数据框。

df = pd.DataFrame({'col1':[1,2,3,4,5], 'col2':list('abcab'),  'col3':list('ababb')})

我可以通过以下操作将分类数据转换为整数。

df['col2'] = df['col2'].astype('category')
df['col3'] = df['col3'].astype('category')
cat_columns = df.select_dtypes(['category']).columns
df[cat_columns] = df[cat_columns].apply(lambda x: x.cat.codes)

在此转换的最后，当我执行print（df.dtypes）时，我得到了

col1    int64
col2     int8
col3     int8

所有分类信息均丢失。我可以将类别到整数的映射保存在文件中吗？我希望以后能够以编程方式反转数据框上的转换。

编辑：我正在寻找一个可逆的过程。因此，这意味着将所有分类列的转换保存在实际文件中。在将来的某个时间，我想获取任何结果，这些列将仍然具有与原始数据框相同的名称，使用保存的信息进行逆变换，并根据分类数据获得结果。

Answer 1

您可以使用几个嵌套的字典理解来双向存储所有类别列的映射。如果需要将它们存储在外部，则可以使用pickle。

cat_cols = df.select_dtypes(['category']).columns

cat_to_code = {col: dict(zip(df[col], df[col].cat.codes)) \
               for col in cat_cols}
# {'col2': {'a': 0, 'b': 1, 'c': 2}, 'col3': {'a': 0, 'b': 1}}

code_to_cat = {k: {v2: k2 for k2, v2 in v.items()} \
               for k, v in cat_to_code.items()}
# {'col2': {0: 'a', 1: 'b', 2: 'c'}, 'col3': {0: 'a', 1: 'b'}}

df[cat_cols] = df[cat_cols].apply(lambda x: x.cat.codes)

请注意，本来就不可能进行双向注入映射，如果需要双向O（1）访问，则必须维护2个单独的映射。

熊猫分类数据：存储转换

1 个答案: