如何使用python pandas用dash替换逗号?

时间:2015-04-19 10:10:18

标签: python json pandas replace

我有一个这样的文件:

name|count_dic
name1 |{'x1':123,'x2,bv.':435,'x3':4}
name2|{'x2,bv.':435,'x5':98}
etc.

我正在尝试将数据加载到数据框中并计算count_dic中的键数。问题是dic项用逗号分隔,而且一些键包含逗号。我正在寻找一种能够用键替换键中逗号的方法 - ' - '然后能够在count_dic.something中分隔不同的键值对,如下所示:

name|count_dic
name1 |{'x1':123,'x2-bv.':435,'x3':4}
name2|{'x2-bv.':435,'x5':98}
etc.

这就是我所做的。

df = pd.read_csv('file' ,names = ['name','count_dic'],delimiter='|')
data = json.loads(df.count_dic)

我收到以下错误:

TypeError: the JSON object must be str, not 'Series'

有任何机构有任何建议吗?

2 个答案:

答案 0 :(得分:1)

如上定义df

# get a value to play around with
td = df.iloc[0].count_dic
td
# that looks like a dict definition... evaluate it?
eval(td)
eval(td).keys() #yup!
#apply to the whole df
df.count_dic = map(eval, df.count_dic)

#and a hint towards your key-counting
map(lambda i: i.keys(), df.count_dic)

答案 1 :(得分:1)

您可以使用ast.literal_eval作为转换器来加载数据帧,因为看起来您有更多Python dict的数据 - 就像... JSON使用双引号 - 例如:

import pandas as pd
import ast

df = pd.read_csv('file', delimiter='|', converters={'count_dic': ast.literal_eval})

给你一个DF:

    name                            count_dic
0  name1  {'x2,bv.': 435, 'x3': 4, 'x1': 123}
1  name2            {'x5': 98, 'x2,bv.': 435}

由于count_dic实际上是dict,因此您可以应用len来获取密钥数量,例如:

df.count_dic.apply(len)

结果:

0    3
1    2
Name: count_dic, dtype: int64