Python - 将PDF格式的书籍分成与页码对应的单个文本文件

时间:2015-06-08 16:15:04

标签: python regex pdf

我已使用PDFminer将我的PDF文件转换为长字符串。

我想知道如何将这个字符串分成更小的单个字符串/页面。每个页面被一系列字符(CRLF,FF,页码等)划分,字符串应根据出现的这些字符进行拆分并附加到新的文本文件中。

我没有使用正则表达式的经验,但使用重新模块是最好的方法吗?

我对实现的模糊想法是我必须使用re.search函数遍历文件,创建每个新表单源的文本文件。我唯一的代码是PDF>文字转换。有人能指出我正确的方向吗?

编辑:我认为我应该使用的表达式类似于^.*(?=(\d\n\n\d\n\n\f\bFavela\b))(捕获2位数之前的所有内容,换行符和出现在每个顶部的书籍标题'Favela'页。

我可以将这些\d位数保存为变量吗?我想将它们用作文件名,因为我遍历书籍并挖掘文本的部分除以\f\Favela的每个外观。

我认为re.sub方法会这样做,循环遍历并替换为空字符串。

0 个答案:

没有答案