使用PHP从pdf中提取内容

时间:2009-11-23 13:14:00

标签: php pdf

您能告诉我如何使用PHP从PDF文档中提取内容吗?格式化是我面临的主要问题。所以请告诉我,如果有一些方法可以提取相同格式的内容并在在线文本编辑器中显示它。

由于

2 个答案:

答案 0 :(得分:1)

查看XPDF

我想你可以做到

$text = shell_exec("pdftotext $pdffile");

至于在编辑器中显示它吗?那么,哪位编辑? 要保留某种类型的格式信息,并且通过Web编辑器假设您指的是HTML编辑器,您可以将其转换为HTML。也许还有其他工具可用,但由于我使用的是xpdf,我遇到了基于xpdf的this转换器。

基本用法

pdftohtml -noframes -c test.pdf test.html

将它带入你最喜欢的编辑器

echo file_get_contents('test.html');

您可能需要在PHP函数/类中包装内容。您可能想要添加安全措施等等。

答案 1 :(得分:0)

据我所知,使用PHP即可将PDF转换为可编辑的HTML ,同时保留格式。所有尝试都有许多桌面应用程序可以从PDF中提取数据,有时会产生更多,有时不太可靠的结果。我想说现在这不太现实,你所能做的就是使用XPDF或其他命令行工具提取纯文本。

新的基于XML的PDF格式可能有所不同,但我对此并不了解。

当然,请随意证明我的错误 - 如果有解决方案,我会非常感兴趣。