如何使用pdf页面中的Zend_Pdf提取文本

时间:2010-03-22 15:41:22

标签: php zend-framework zend-pdf pdftotext

任何人都可以帮助从PDF格式的页面中提取文本吗?

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

我会假设页面方法会存在,但我找不到任何东西让我提取内容。

示例:$ page-&gt; getContents(); $ PAGE-&GT;的toString(); $ PAGE-&GT; extractText();

...帮助!!!!这让我发疯了!

2 个答案:

答案 0 :(得分:2)

我同意Andy的观点,这似乎并不受支持。作为替代方案,请查看Shaun Farrell's solution to extracting text from a PDF for use with Zend_Search_Lucene。他使用XPDF,这也可能满足您的需求。

答案 1 :(得分:0)

the manual开始,似乎不支持此功能。此外,新文本使用drawText() function编写,它似乎是写图像,而不是简单的“可解码”文本。