我想阅读现有的pdf&提取文本和图形信息。在图形中,目前我只需要绘制的线条。有许多供应商组件用于阅读PDF文本,但有哪些可以提供图形信息?虽然首选免费/开源,但我也可以使用免费/开源。
要求是:
对于PDF中的每个页面:
阅读文本块
了解文本块的画布坐标(包含块的矩形)。请注意,对于字体较大的文本,矩形大小会发生变化。
行 - 需要为pdf页面中的每一行收集(x1,y1,x2,y2)
谢谢, - 搜寻者
答案 0 :(得分:0)
这是我的领域,虽然问题有点陈旧。希望这仍然有帮助。
你留下一些假设空间,所以这是我的:
您的对象是档案
您正在运行命令行脚本: 使用此命令行脚本,详细信息请参阅:http://stefaanlippens.net/extract-images-from-pdf-documents
您正在使用imagemagick或graphicsmagick函数运行服务器端代码: 像"转换-background white -flatten test1.pdf test1.jpg" (imagemagick)将整个PDF页面呈现为jpeg。如果你想将它裁剪成图像,那么它取决于项目的上下文来确定最佳的脚本。
一个相当复杂的问题。如果您希望提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。