<?php
$parser = new \installpath\PdfParser\Parser();
$pdf    = $parser->parseFile('mypdf.pdf');  
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf

?>

Simular你可以从pdf获取元数据以及获取pdf对象（例如图像）。

Answer 3

嗯...不完全是php，但你可以从php调用一个程序将pdf转换为临时的html文件，然后用php解析生成的文件。我为我的一个项目做了类似的事情，这是我使用的程序：

PdfToHtml

该计划的一个很酷的地方在于它将吐出＆lt;中的文本元素。 div>带绝对位置坐标的标签。看起来这正是你想要做的。

Answer 4

您可能还想尝试此应用http://pdfbox.apache.org/。可以在https://www.jinises.com

找到一个工作示例

Answer 5

您的初始请求是＆＃34;我有一个大型PDF文件，它是建筑物的楼层地图。＆＃34;

我害怕告诉你这可能比你想象的要难。

原因每个人用来解析pdf的最后一个已知的lib很小，而且这个已知会遇到有关大文件的问题。

在这里，Lookig是一个真正的php lib来解析pdf，没有任何内存峰值需要php配置来禁用内存限制，因为很多＆＃34;开发人员＆＃34; （我猜这真的不可取）。

有关smalot性能的更多详细信息，请参阅此帖子：https://github.com/smalot/pdfparser/issues/163

用php阅读pdf文件

5 个答案: