删除dataframe python中的空间

时间:2015-06-10 17:30:37

标签: python pandas whitespace dataframe strip

我的代码中出现错误,因为我试图通过调用csv中的元素来创建数据帧。我从文件中调用了两列:CompanyName和QualityIssue。质量问题有三种类型:设备质量,用户和两者。我遇到了试图制作数据帧df.Equipment质量的问题,这显然不起作用,因为那里有空间。我想从原始文件中获取设备质量,并用下划线替换空格。

输入:

Top Calling Customers,         Equipment Quality,    User,    Neither,
Customer 3,                      2,           2,        0,
Customer 1,                      0,           2,        1,
Customer 2,                      0,           1,        0,
Customer 4,                      0,           1,        0,

这是我的代码:

import numpy as np
import pandas as pd
import pandas.util.testing as tm; tm.N = 3

# Get the data.
data = pd.DataFrame.from_csv('MYDATA.csv')   
# Group the data by calling CompanyName and QualityIssue columns.
byqualityissue = data.groupby(["CompanyName", "QualityIssue"]).size() 
# Make a pandas dataframe of the grouped data.
df = pd.DataFrame(byqualityissue) 
# Change the formatting of the data to match what I want SpiderPlot to read.
formatted = df.unstack(level=-1)[0]  
# Replace NaN values with zero.
formatted[np.isnan(formatted)] = 0 
includingtotals = pd.concat([formatted,pd.DataFrame(formatted.sum(axis=1), 
                             columns=['Total'])], axis=1)
sortedtotal = includingtotals.sort_index(by=['Total'], ascending=[False])
sortedtotal.to_csv('byqualityissue.csv')

这似乎是一个经常被问到的问题,我尝试了很多解决方案,但它们似乎并没有起作用。这是我试过的:

with open('byqualityissue.csv', 'r') as f:
    reader = csv.reader(f, delimiter=',', quoting=csv.QUOTE_NONE)
    return [[x.strip() for x in row] for row in reader]
    sentence.replace(" ", "_")

sortedtotal['QualityIssue'] = sortedtotal['QualityIssue'].map(lambda x: x.rstrip(' ')) 

我认为这是最有希望的http://pandas.pydata.org/pandas-docs/stable/text.html

formatted.columns = formatted.columns.str.strip().str.replace(' ', '_')

但是我收到了这个错误:AttributeError:' Index'对象没有属性' str'

提前感谢您的帮助!

2 个答案:

答案 0 :(得分:7)

尝试:

formatted.columns = [x.strip().replace(' ', '_') for x in formatted.columns]

答案 1 :(得分:3)

正如我理解你的问题,以下内容应该有效(使用inplace=False进行测试,看看如果你要小心,它首先看起来如何):

sortedtotal.rename(columns=lambda x: x.replace(" ", "_"), inplace=True)

如果列名称周围有空格,例如:"此示例"

sortedtotal.rename(columns=lambda x: x.strip().replace(" ", "_"), inplace=True)

除去前导/尾随空格,然后将内部空格转换为" _"。