正则表达式标记器的问题

时间:2019-01-11 02:27:20

标签: regex tokenize

我有一个带有文本的数据框:

suj rawText
0   01  PART1\ntext... PART2\ntext...
1   02  PART1\ntext... PART2\ntext...
2   03  PART1\ntext... PART2\ntext...
3   04  PART1\ntext... PART2\ntext...
4   05  PART1\ntext... PART2\ntext...

,我想用正则表达式“ PART1”,“ PART2”和“ PART3”将“ rawText”分为三部分 所以,我正在使用:

extract = RegexpTokenizer('(PART.)', gaps=True, discard_empty=True)
df['result']=df.apply(lambda row : extract.tokenize(row['rawText']), axis=1)

但结果不会按预期删除正则表达式...

suj rawText result
0   01  PART1\ntext...  [PART1, \ntext...
1   02  PART1\ntext...  [PART1, \ntext
2   03  PART1\ntext...  [PART1, \ntext...
3   04  PART1\ntext...  [PART1, \ntext...
4   05  PART1\ntext...  [PART1, \ntext...

有什么想法吗?

0 个答案:

没有答案