标签: python parsing text
我有一些PDF文件,我转换为纯文本。现在我想拆分每个页面并使用这些分离的页面。有没有解决办法呢?我只使用转换后的文档 - 有页码但在文本中有其他数字时不准确。
我使用的PDFMiner,有一些转换页面的变量,我可以使用。但是还有很多其他的PDF转换程序,我想编写一个通用的程序。
有人请一些建议吗?谢谢