应用错误收集

从PDF中提取文本：PDFLib vs PDF extract vs pdf2xml

时间：2010-09-21 10:22:35

标签： java php pdf text-extraction

我正在寻找一个库（如果可能的Java或PHP），以便从PDF中提取文本。有很多软件可用，包括：

3-Heights™PDF提取http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET - 文本提取工具包http://www.pdflib.com/products/tet/
PDF2XML http://sourceforge.net/projects/pdf2xml/

您会选择哪些工具？你觉得他们怎么样？

非常感谢您的帮助！

2 个答案:

答案 0 :(得分：3)

我最喜欢的是iText（java），但是从PDF中提取文本可能会遇到困难，因为PDF中的文本并不总是以它出现的顺序存储。

答案 1 :(得分：-1)

itext无法正确地从irs i1040.pdf中提取文本如此报道：

＆LT 1为卤素; article.gmane.org/gmane.comp.java.lib.itext.general/65680

尽管我可以理解，当嵌入字体时，并不总是能够提取正确的文本。看到：＆LT 2 - ; www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html ＆LT 3的密度;第9.10.1节： www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

＆LT 3的密度;表示：

如果没有以这些方式之一定义字体...字符如果没有其他信息，则无法转换为Unicode值。

我认为“转换为unicode值”对于文本提取至关重要。