如何将PDF转换为文本以便我可以使用PHP解析该文本?

时间:2011-06-23 09:00:55

标签: php linux pdf import

我的PDF大多只是格式化文本。我想用PHP解析文本。我意识到PDF是二进制的,所以我需要一个实用程序或库来将其转换为文本。

有什么建议吗?

3 个答案:

答案 0 :(得分:5)

第三方软件可以转储PDF文件的文本内容,例如:

  • xdoc2txt(仅限Windows,在WinMerge插件中使用)
  • pdftotext,Xpdf的一部分

答案 1 :(得分:4)

我最终使用XPDF(包括pdftotext)。这非常有效,我在生产中使用它来从上传到我们服务器的数百万个PDF中提取文本。

以下是Linux CentOS的安装过程:

  1. 从此处下载3.03版本:http://foolabs.com/xpdf/download.html
  2. tar -zxvf xpdfbin-linux-3.03.tar.gz(extract tar.gz)
  3. 创建安装所需的目录(部分或全部可能已经存在)
    • sudo mkdir / usr / local / man /
    • sudo mkdir / usr / local / man / man1 /
    • sudo mkdir / usr / local / man / man5 /
    • sudo mkdir / usr / local / etc / xpdfrc /
  4. 从解压缩的文件夹中移动文件(cd进入刚刚解压缩xpdf的文件夹)
    • 将bin64目录中的所有可执行文件(xpdf,pdftotext ...所有文件)移至/ usr / local / bin /
    • 将sample-xpdfrc文件移动到/ usr / local / etc / xpdfrc(这可以按原样使用)
    • 将手册页从doc目录(* .1移至/ usr / local / man / man1 /& * .5至/ usr / local / man / man5 /)
  5. xpdf应该已安装并可以使用
  6. 您可以删除已下载的tar.gz文件及其解压缩文件夹

答案 2 :(得分:1)

您无法使用file_get_contents()执行此操作,因为PDF文件仅包含二进制数据(无纯文本)。要阅读/修改pdf文件,您可以使用某些第三方库。看看:

不要忘记