php中的pdf文本extracter类

时间:2011-06-29 13:04:18

标签: php pdf text-extraction

php中是否有可用于从pdf文件中提取所有文本的类,因此我可以将其存储在mysql数据库中。我的pdf有许多元素,如图像,表格,纯文本,表单元素,图表等。

到目前为止,我看到过去两天有很多课程,提取文本,但没有人提供完整的文本提取,不提取pdf的完整文本。

我想从给定的pdf文件中提取所有文本,即使文本在表​​格等中也是如此。

有谁知道这个? :)

非常感谢。祝你有愉快的一天:)

3 个答案:

答案 0 :(得分:0)

如果您在Linux服务器上运行此程序,可以尝试使用apdf2text通过exec调用它,然后抓取输出文件的内容。

请注意,有几个pdf到文本脚本,你将获得不同的里程数。

答案 1 :(得分:0)

答案 2 :(得分:0)

我测试了很多命令行程序,但没有一个得到100%的结果。 所以我用PHP创建了自己的库:

https://github.com/smalot/pdfparser

目前它面向文本,但计划支持图像支持。

如果您遇到问题,感谢您将PDF发送给我,如果可能的话,请将其发送给我。