应用错误收集

我有一个带有文本的数据框：

suj rawText
0   01  PART1\ntext... PART2\ntext...
1   02  PART1\ntext... PART2\ntext...
2   03  PART1\ntext... PART2\ntext...
3   04  PART1\ntext... PART2\ntext...
4   05  PART1\ntext... PART2\ntext...

，我想用正则表达式“ PART1”，“ PART2”和“ PART3”将“ rawText”分为三部分所以，我正在使用：

extract = RegexpTokenizer('(PART.)', gaps=True, discard_empty=True)
df['result']=df.apply(lambda row : extract.tokenize(row['rawText']), axis=1)

但结果不会按预期删除正则表达式...

suj rawText result
0   01  PART1\ntext...  [PART1, \ntext...
1   02  PART1\ntext...  [PART1, \ntext
2   03  PART1\ntext...  [PART1, \ntext...
3   04  PART1\ntext...  [PART1, \ntext...
4   05  PART1\ntext...  [PART1, \ntext...

有什么想法吗？

正则表达式标记器的问题

0 个答案: