我可以使用带有reg.expressions的pd.cut来划分机舱值(泰坦尼克号数据集)吗?

时间:2016-10-19 22:26:15

标签: regex pandas seaborn

以下是来自数据集Cabin_hunt的示例:

     Fare      Cabin  Pclass   Ticket  \
583  40.1250   A10       1     13049   
208  27.7208   A11       1  PC 17613   
475  52.0000   A14       1    110465   
556  39.6000   A16       1     11755   
331  29.7000   A18       1  PC 17580   
284  26.0000   A19       1    113056   
599  56.9292   A20       1  PC 17485   
737  512.3292  B101      1  PC 17755   
815   0.0000   B102      1    112058   
215  42.5000   B11       1    113038   
329  57.9792   B18       1    111361   
523  57.9792   B18       1    111361   
269  135.6333  C99       1  PC 17760   
97   63.3583   D10 D12   1  PC 17759   
350  63.3583   D10 D12   3  PC 17759   
765  77.9583   D11       3     13502  

我想通过起始字母将小组分成小组,但我不想删除跟随它们的数字,因为我可能希望根据各自的数字进一步划分每个小组。

创建组后,我计划绘制由Pclasses分隔的每个组,以查看Cabin letter和Pclass之间的任何关联。

我在考虑使用pd.cut,但似乎我必须使用正则表达式?     d = pd.cut(Cabin_hunt.Cabin,(' A',' B'' C',' D',' ; E'' F'' G&#39)

我试图用括号表示一组字符如下:

'A[0-9][0-9]' 

但我无法弄清楚如何激活括号的特殊用法。

尽管如此,如果我切断了小屋'通过使用pd.cut的信件,我只能访问该列吗?看起来并不是整个数据帧。我希望能够同时绘制Cabin和PClass的图形。

感谢。

1 个答案:

答案 0 :(得分:1)

groupbyCabin_hunt.Cabin.str[0]

一起使用
Cabin_hunt.groupby([Cabin_hunt.Cabin.str[0], Cabin_hunt.Pclass]).size().unstack()

enter image description here