我正在尝试将数据集拆分为两种类型的数据点。目前我有一个这种格式的pandas数据帧。
CS1001 True value1
CM1001 False value2
CS1002 True value3
现在我想把它分成像这样的S和M数据帧:
S帧:
C1001 True value1
C1002 True value3
M帧:
C1001 False value2
现在我遇到了两个问题,我似乎无法将前4个字符分组。
data.groupby(data.index[:4])
然后我无法编辑索引值以删除S / M.我之前没有使用熊猫,所以我觉得我正在监督一个明显的解决方案,但我无法弄明白。
答案 0 :(得分:1)
IIUC:
In [15]: data
Out[15]:
1 2
CS1001 True value1
CM1001 False value2
CS1002 True value3
In [16]: data.groupby(data.index.str[:2]).groups
Out[16]:
{'CM': Index(['CM1001'], dtype='object'),
'CS': Index(['CS1001', 'CS1002'], dtype='object')}
从索引值中删除第二个字母:
In [5]: df.index = df.index.str[:1] + df.index.str[2:]
In [6]: df
Out[6]:
1 2
C1001 True value1
C1001 False value2
C1002 True value3