我有一个带有文本的数据框:
suj rawText
0 01 PART1\ntext... PART2\ntext...
1 02 PART1\ntext... PART2\ntext...
2 03 PART1\ntext... PART2\ntext...
3 04 PART1\ntext... PART2\ntext...
4 05 PART1\ntext... PART2\ntext...
,我想用正则表达式“ PART1”,“ PART2”和“ PART3”将“ rawText”分为三部分 所以,我正在使用:
extract = RegexpTokenizer('(PART.)', gaps=True, discard_empty=True)
df['result']=df.apply(lambda row : extract.tokenize(row['rawText']), axis=1)
但结果不会按预期删除正则表达式...
suj rawText result
0 01 PART1\ntext... [PART1, \ntext...
1 02 PART1\ntext... [PART1, \ntext
2 03 PART1\ntext... [PART1, \ntext...
3 04 PART1\ntext... [PART1, \ntext...
4 05 PART1\ntext... [PART1, \ntext...
有什么想法吗?