Question

我正在尝试使用此代码从pdf文件中获取文本，但它返回如下编码文本： -

$fp = fopen($filename, "r");
echo $content = fread($fp, filesize($filename));
fclose($fp);

%PDF-1.3 3 0 obj <> endobj 4 0 obj <> stream xœí\Ks¹¾ûWàâ*¹<„ñ~ø*¯½›ÊVíf«*‡(ZIÌRyHZÑ¿O÷ŠIKÅªØ&9 h|Sn“TÑâ©mÐÚ å 6¨Mxø´Ê“üú•wÔ:,WP¥ˆqžzN~ƒÇ)¹zõ¯CF{Wê?¿ß$èQ‡šQ†J_`ù-ÏF‹Ë99NOsòeqw7y ðíÕx’’‹3ò™ãœ\¼YA½ÖG%°Ãå¶QO ³Rð¯Œ©8U %æåG]MÀ¥J'{±¢C¾®ÃõÂ÷^S8oQgœxÎ§ÖÊø5›§ï×ÕÙZ‚ðÔ6K ç7@‘ñõ"OgdtÎHvE$ü2Ì/oŠ.£]t~ˆ‚9vêPebí›†LLˆê³ž{ÖvÆ{OYEò”|J'ãïiþcø2ËGØ+sè«;ø5§×äÛb˜Ïa¨]œñÙœ|&ØUo6Ø”¶j¥TóF½ûsIzJÞürl¯w$KgrtÑAÄ9&› ÚÒƒ`T¼bÐŒÜ9ü<œÃ8úÀ¿ÇáÈ÷t6K'3¤Oâ¹HŒàdt?Ío†óRlvy“Ž“tDæùš’QÉIø}<%KÖ‘¯‹9É¦`ïW)°Ó Ì(¢hº›&XÂtÝ°¢M—Ùôjœß–mº~O¡aé4hÚþV ¨`ÂºOÏáŽ=Àªœˆ·Ùôúâþf|yó>>wð„7ÊzCßçXì¨Lð•´.ð)E'fœMgµ&jN•.\8A ÅÑµÚGÉZPaÃ:úâØþø˜¡Þ”uˆ,‡Ì·ãépæë¹]ÌÃ ^çiz›Nç4f&`–jÓ¨å™ÓèùÚÎ)*ÊIûimãWïœ¤Ü#©v‘ŒGs*ÃJNÎxg &b5ã¹+)Ÿ§ù,Oo‡ãé&IpŠi,‚ó²Øf='Ç¨¡ƒ1ª•ˆ@%`&Àž J>9*ˆ¹5ì9rñÈ:(Š#yÃ‚Ÿ¹yê¨Y®¨S…>ŒFcœäÀâWQÆxmøsI÷ž9ü½¡Î‡ÕœDš-tM"[û†²rkïÆ“IßÌÈUžÝbLõ}œ-fuHõî!æQS`¹üÖû2 [Ð¨.—(~ÀXø6›”ÅÀ£K¼óŒÆ5Ä ÆÿÓH¶ã`ƒÙÂUó¼%+Ë€ÃÛl1c7áæš%¼èOÿ<¯ÃË|xwV}´ÈQ&ˆ(ózx––ïâ²çëzäj’¦sj:U37‹«V0*y£Ù/cõ°±*9åÔú‘’ŸÊþY_FŒš³ÝJÁÏ}Î~Î…ßÈµož)š—Bÿ…ÆN>œ[ê`ÖfŽê57sËËågÙÐ¼Ú‘Ôø°$o&DÂ¬XL³æèö<®Äµ‚9¶ÏÌ=n(6*ÿt?J%‚Ip¥B‹~q6ýø^·_ÓÍ:‹òµ„¬MKGŠÍ‰ñ‚ú5/=’2žj–ô–

我不知道，我将采取什么措施来获取文字并将文字与用户输入相匹配？

非常感谢...

Answer 1

http://nl3.php.net/manual/en/ref.pdf.php

期待这个..！

编辑：

和http://davidwalsh.name/read-pdf-doc-file-php

您是否尝试 pdflib

Answer 2

PDF是一种结构化和压缩的文件格式，包含许多资源，例如纯文本和二进制数据（图像，字体等）。压缩是可选的。尝试从PDF中提取文本字符串的主要问题是您不知道在转换期间是否维护了文本结构。有些程序可以很好地将单词/句子保持为字符串，而其他程序可能会以使PDF源中的原始文本不可读的方式进行分解。在这种情况下，源文档和PDF呈现应用程序很重要。

在我们深入了解从PDF解析文本的细节之前，您应该选择quick look around the web。除非你想要体验，否则不需要重新发明轮子。

阅读和搜索pdf文件

2 个答案: