任何人都可以帮助从PDF格式的页面中提取文本吗?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
我会假设页面方法会存在,但我找不到任何东西让我提取内容。
示例:$ page-&gt; getContents(); $ PAGE-&GT;的toString(); $ PAGE-&GT; extractText();
...帮助!!!!这让我发疯了!
答案 0 :(得分:2)
我同意Andy的观点,这似乎并不受支持。作为替代方案,请查看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF,这也可能满足您的需求。
答案 1 :(得分:0)
从the manual开始,似乎不支持此功能。此外,新文本使用drawText() function编写,它似乎是写图像,而不是简单的“可解码”文本。