Question

我已将数据集（csv）集成到pandas数据框中。其中一列包含几个具有类似上下文的“级别”或唯一值。因此，我想将这些与一个共同的价值相结合。我在这个专栏中遇到的两个问题是：

列是object类型，所以我尝试转换为string（str）。我试图将列转换为字符串，但然后python显示错误“UnicodeEncodeError：'ascii'编解码器无法编码位置7中的字符u'\ xe4'：序数不在范围内（128）”。
< / LI>
其中一些值包含德语字符。我试图将德语字符替换为普通字符（例如ä到ae等）。没有操纵任何值。

df.replace(u'\xe4', 'ae')

两种读取数据的方法没有帮助：

# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0)
dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0, dtype={'a': str})
df = pd.DataFrame(dataset)

数据集样本（2列）：

     a       |     b   |     c * (new column)  
    ===============================
    häfen1         1       häfen1 
    häfen2         1       häfen2
    haefen-1       0       häfen1
    haefen1        1       häfen1
    häfen2         0       häfen2
    häfen3         0       häfen3
    häfen3         0       häfen3
    haefen 1       1       häfen1

python组并在数据框中处理类似的值

0 个答案: