我已将数据集(csv)集成到pandas数据框中。其中一列包含几个具有类似上下文的“级别”或唯一值。因此,我想将这些与一个共同的价值相结合。 我在这个专栏中遇到的两个问题是:
列是object类型,所以我尝试转换为string(str)。 我试图将列转换为字符串,但然后python显示错误“UnicodeEncodeError:'ascii'编解码器无法编码位置7中的字符u'\ xe4':序数不在范围内(128)”。
< / LI>其中一些值包含德语字符。我试图将德语字符替换为普通字符(例如ä到ae等)。没有操纵任何值。
df.replace(u'\xe4', 'ae')
两种读取数据的方法没有帮助:
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np
dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0)
dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0, dtype={'a': str})
df = pd.DataFrame(dataset)
数据集样本(2列):
a | b | c * (new column)
===============================
häfen1 1 häfen1
häfen2 1 häfen2
haefen-1 0 häfen1
haefen1 1 häfen1
häfen2 0 häfen2
häfen3 0 häfen3
häfen3 0 häfen3
haefen 1 1 häfen1