将PDF转换为格式化的ASCII - 最先进的是什么?

时间:2009-07-01 01:36:21

标签: pdf

我正在寻找一个实用程序或库,用于从PDF中提取文本并以纯文本格式化,同时保留尽可能多的原始布局(例如表格,列等)。

我们目前正在使用pdftotext,但我想知道是否还有更好的东西。它必须是一个命令行工具或我们可以链接到我们的应用程序的库。

pdftotext是不是很好,还是有更好的东西?

3 个答案:

答案 0 :(得分:1)

为了同样问题的其他人的利益:我们最终坚持使用pdftotext尽管有其缺点(比如在使用字体子集时有时会产生垃圾输出)。

另请参阅:http://www.glyphandcog.com/textext.html

答案 1 :(得分:0)

AbiWord暂时有一个SoC项目。 IIRC,它在重建多列文档,表格和数字方面做得非常好。还有一个命令行界面。

答案 2 :(得分:0)

部分问题在于我认为一些更简单的pdf操作/创建工具不会添加文本,而是将文本保存为类似静态图像的pdf文件的一部分。对于那些文件,您必须使用OCR。