从PDF中提取文本:PDFLib vs PDF extract vs pdf2xml

时间:2010-09-21 10:22:35

标签: java php pdf text-extraction

我正在寻找一个库(如果可能的Java或PHP),以便从PDF中提取文本。有很多软件可用,包括:

您会选择哪些工具?你觉得他们怎么样?

非常感谢您的帮助!

2 个答案:

答案 0 :(得分:3)

我最喜欢的是iText(java),但是从PDF中提取文本可能会遇到困难,因为PDF中的文本并不总是以它出现的顺序存储。

答案 1 :(得分:-1)

itext无法正确地从irs i1040.pdf中提取文本 如此报道:

&LT 1为卤素; article.gmane.org/gmane.comp.java.lib.itext.general/65680

尽管我可以理解,当嵌入字体时, 并不总是能够提取正确的文本。 看到:   &LT 2 - ; www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html   &LT 3的密度;第9.10.1节:       www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

&LT 3的密度;表示:

如果没有以这些方式之一定义字体...字符   如果没有其他信息,则无法转换为Unicode值。

我认为“转换为unicode值”对于文本提取至关重要。