我想解析一些包含文本的pdf文件,可能包含也可能不包含图像。我想将文本部分提取为字符串以进行进一步处理,并将图像保存为jpeg / png或任何其他图像格式。什么应该是最好的模块?
答案 0 :(得分:2)
pdfminer将获取您的文字。 pdfrw(免责声明:我是pdfrw的作者)有一些示例可以找到图像并将它们转储到单独的页面,还有将PDF分成单独页面的示例,因此您可以轻松地将所有图像提取为单独的PDF。如果以无头模式运行inkscape(例如从子进程模块),它可以读取PDF并输出不同的格式。