嗨,我正在开发一个解析pdf数据以便在移动设备上查看的应用程序,我正在寻找一种方法来扫描pdf文件以查找特定文本并获取x&该文本块的y坐标。这甚至是可能的。我使用php在Linux服务器上工作,但我可以灵活地使用任何方法来实现这一点。感谢。
答案 0 :(得分:3)
商业选择:
所有这些都非常成熟,TET非常特定于文本提取,pdfToolbox是一个用于分析和操作PDF的通用SDK(但具有文本提取的特定功能,页面上的文本坐标)和Adobe PDF库是一个通用的开发工具(提供了许多低级功能,但是必须编写代码才能找到文本/单词/字符并拉出坐标)。
免责声明:我为callas软件工作,我对pdfToolbox的看法可能有偏见。