我正在寻找一个库(如果可能的Java或PHP),以便从PDF中提取文本。有很多软件可用,包括:
3-Heights™PDF提取http://www.pdf-tools.com/pdf/pdf-extract-content-metadata-text.aspx
PDFlib TET - 文本提取工具包http://www.pdflib.com/products/tet/
您会选择哪些工具?你觉得他们怎么样?
非常感谢您的帮助!
答案 0 :(得分:3)
我最喜欢的是iText(java),但是从PDF中提取文本可能会遇到困难,因为PDF中的文本并不总是以它出现的顺序存储。
答案 1 :(得分:-1)
itext无法正确地从irs i1040.pdf中提取文本 如此报道:
&LT 1为卤素; article.gmane.org/gmane.comp.java.lib.itext.general/65680
尽管我可以理解,当嵌入字体时, 并不总是能够提取正确的文本。 看到: &LT 2 - ; www.verypdf.com/wordpress/201109/pdf-to-text-converter-cant-extract-text-which-render-by-embedded-fonts-2452.html &LT 3的密度;第9.10.1节: www.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
&LT 3的密度;表示:
如果没有以这些方式之一定义字体...字符 如果没有其他信息,则无法转换为Unicode值。
我认为“转换为unicode值”对于文本提取至关重要。