我的PDF大多只是格式化文本。我想用PHP解析文本。我意识到PDF是二进制的,所以我需要一个实用程序或库来将其转换为文本。
有什么建议吗?
答案 0 :(得分:5)
第三方软件可以转储PDF文件的文本内容,例如:
答案 1 :(得分:4)
我最终使用XPDF(包括pdftotext)。这非常有效,我在生产中使用它来从上传到我们服务器的数百万个PDF中提取文本。
以下是Linux CentOS的安装过程:
答案 2 :(得分:1)
您无法使用file_get_contents()
执行此操作,因为PDF文件仅包含二进制数据(无纯文本)。要阅读/修改pdf文件,您可以使用某些第三方库。看看:
不要忘记