Pandas DataFrame:使用列值来切割另一列中的字符串

时间:2017-11-20 15:53:55

标签: python string pandas dataframe slice

我有一个pandas DataFrame如下:

     col1  col2  col3
0    1     3     ABCDEFG
1    1     5     HIJKLMNO
2    1     2     PQRSTUV

我想添加另一列,该列应该是col3的子字符串,如col1所示位置col2中指示的位置。像col3[(col1-1):(col2-1)]这样的东西应该导致:

     col1  col2  col3       new_col
0    1     3     ABCDEFG    ABC
1    1     5     HIJKLMNO   HIJK
2    1     2     PQRSTUV    PQ

我尝试了以下内容:

my_df['new_col'] = my_df.col3.str.slice(my_df['col1']-1, my_df['col2']-1)

my_df['new_col'] = data['col3'].str[(my_df['col1']-1):(my_df['col2']-1)]

它们都会产生一列NaN,而如果我插入两个数值(即data['col3'].str[1:3]),它就可以正常工作。我检查过并且类型是正确的(int64,int64和object)。此外,在这样的上下文之外(例如使用for循环)我可以完成工作,但我更喜欢利用DataFrame的单线程。我做错了什么?

1 个答案:

答案 0 :(得分:1)

使用apply,因为每行必须单独处理:

my_df['new_col'] = my_df.apply(lambda x: x['col3'][x['col1']-1:x['col2']], 1)  
print (my_df)
   col1  col2      col3 new_col
0     1     3   ABCDEFG     ABC
1     1     5  HIJKLMNO   HIJKL
2     1     2   PQRSTUV      PQ