python组并在数据框中处理类似的值

时间:2016-04-10 12:39:38

标签: python pandas dataframe data-manipulation

我已将数据集(csv)集成到pandas数据框中。其中一列包含几个具有类似上下文的“级别”或唯一值。因此,我想将这些与一个共同的价值相结合。 我在这个专栏中遇到的两个问题是:

  1. 列是object类型,所以我尝试转换为string(str)。 我试图将列转换为字符串,但然后python显示错误“UnicodeEncodeError:'ascii'编解码器无法编码位置7中的字符u'\ xe4':序数不在范围内(128)”。

    < / LI>
  2. 其中一些值包含德语字符。我试图将德语字符替换为普通字符(例如ä到ae等)。没有操纵任何值。

  3. df.replace(u'\xe4', 'ae')

    两种读取数据的方法没有帮助:

    # -*- coding: utf-8 -*-
    import pandas as pd
    import numpy as np
    dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0)
    dataset = pd.read_csv('data.csv', parse_dates=True, encoding='utf-8',header=0, dtype={'a': str})
    df = pd.DataFrame(dataset)
    

    数据集样本(2列):

         a       |     b   |     c * (new column)  
        ===============================
        häfen1         1       häfen1 
        häfen2         1       häfen2
        haefen-1       0       häfen1
        haefen1        1       häfen1
        häfen2         0       häfen2
        häfen3         0       häfen3
        häfen3         0       häfen3
        haefen 1       1       häfen1
    

0 个答案:

没有答案