我正在寻找一个实用程序或库,用于从PDF中提取文本并以纯文本格式化,同时保留尽可能多的原始布局(例如表格,列等)。
我们目前正在使用pdftotext,但我想知道是否还有更好的东西。它必须是一个命令行工具或我们可以链接到我们的应用程序的库。
pdftotext是不是很好,还是有更好的东西?
答案 0 :(得分:1)
为了同样问题的其他人的利益:我们最终坚持使用pdftotext
尽管有其缺点(比如在使用字体子集时有时会产生垃圾输出)。
答案 1 :(得分:0)
AbiWord暂时有一个SoC项目。 IIRC,它在重建多列文档,表格和数字方面做得非常好。还有一个命令行界面。
答案 2 :(得分:0)
部分问题在于我认为一些更简单的pdf操作/创建工具不会添加文本,而是将文本保存为类似静态图像的pdf文件的一部分。对于那些文件,您必须使用OCR。