将PDF转换为没有pdftotext的文本?

时间:2012-01-17 08:40:29

标签: pdf pdftotext

我必须将PDF转换为文本,目前我正在使用pdftotext.exe。这有时会弄乱结果文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

3 个答案:

答案 0 :(得分:3)

PDF可能很难转换为文本,具体取决于其构造方式,但您可以从iTextSharp或GhostScript或商业组件获得良好结果,例如:来自www.tallcomponents.com(非附属)

答案 1 :(得分:1)

PDF文件通常不包含任何结构,因此软件需要猜测它。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/

写了一篇关于这些问题的博客文章

您也可以尝试PdfBox。

答案 2 :(得分:0)

我发现Apache PDFBox比pdftotext好得多。它以更接近文档原始格式的方式提取文本。它可以从命令行运行。