Question

任何人都可以帮助从PDF格式的页面中提取文本吗？

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

我会假设页面方法会存在，但我找不到任何东西让我提取内容。

示例：$ page-＆gt; getContents（）; $ PAGE-＆GT;的toString（）; $ PAGE-＆GT; extractText（）;

...帮助!!!!这让我发疯了！

Answer 1

我同意Andy的观点，这似乎并不受支持。作为替代方案，请查看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF，这也可能满足您的需求。

Answer 2

从the manual开始，似乎不支持此功能。此外，新文本使用drawText() function编写，它似乎是写图像，而不是简单的“可解码”文本。