PDF解析特定文本

时间:2011-06-07 18:04:52

标签: php parsing pdf

嗨,我正在开发一个解析pdf数据以便在移动设备上查看的应用程序,我正在寻找一种方法来扫描pdf文件以查找特定文本并获取x&该文本块的y坐标。这甚至是可能的。我使用php在Linux服务器上工作,但我可以灵活地使用任何方法来实现这一点。感谢。

1 个答案:

答案 0 :(得分:3)

商业选择:

  • 来自http://www.pdflib.com的TET(文本提取工具包)SDK;可用于测试机制的Acrobat插件
  • 来自http://www.callassoftware.com的pdfToolbox SDK;可用于测试的交互式桌面版
  • 如果您准备自己做更多编码:Adobe PDF Library,SDK,可通过Datalogics获取

所有这些都非常成熟,TET非常特定于文本提取,pdfToolbox是一个用于分析和操作PDF的通用SDK(但具有文本提取的特定功能,页面上的文本坐标)和Adobe PDF库是一个通用的开发工具(提供了许多低级功能,但是必须编写代码才能找到文本/单词/字符并拉出坐标)。

免责声明:我为callas软件工作,我对pdfToolbox的看法可能有偏见。