应用错误收集

我已使用PDFminer将我的PDF文件转换为长字符串。

我想知道如何将这个字符串分成更小的单个字符串/页面。每个页面被一系列字符（CRLF，FF，页码等）划分，字符串应根据出现的这些字符进行拆分并附加到新的文本文件中。

我没有使用正则表达式的经验，但使用重新模块是最好的方法吗？

我对实现的模糊想法是我必须使用re.search函数遍历文件，创建每个新表单源的文本文件。我唯一的代码是PDF＆gt;文字转换。有人能指出我正确的方向吗？

编辑：我认为我应该使用的表达式类似于^.*(?=(\d\n\n\d\n\n\f\bFavela\b))（捕获2位数之前的所有内容，换行符和出现在每个顶部的书籍标题'Favela'页。

我可以将这些\d位数保存为变量吗？我想将它们用作文件名，因为我遍历书籍并挖掘文本的部分除以\f\Favela的每个外观。

我认为re.sub方法会这样做，循环遍历并替换为空字符串。