从现有的pdf中读取文本+图形(如线条)信息

时间:2011-03-08 03:41:17

标签: pdf text line graphic

我想阅读现有的pdf&提取文本和图形信息。在图形中,目前我只需要绘制的线条。有许多供应商组件用于阅读PDF文本,但有哪些可以提供图形信息?虽然首选免费/开源,但我也可以使用免费/开源。

要求是:

对于PDF中的每个页面:

  1. 阅读文本块

  2. 了解文本块的画布坐标(包含块的矩形)。请注意,对于字体较大的文本,矩形大小会发生变化。

  3. 行 - 需要为pdf页面中的每一行收集(x1,y1,x2,y2)

  4. 谢谢, - 搜寻者

1 个答案:

答案 0 :(得分:0)

这是我的领域,虽然问题有点陈旧。希望这仍然有帮助。

你留下一些假设空间,所以这是我的:

  • 你寻找一个脚本而不是独立的软件
  • 您的对象是档案

    1. 您正在运行命令行脚本: 使用此命令行脚本,详细信息请参阅:http://stefaanlippens.net/extract-images-from-pdf-documents

    2. 您正在使用imagemagick或graphicsmagick函数运行服务器端代码: 像"转换-background white -flatten test1.pdf test1.jpg" (imagemagick)将整个PDF页面呈现为jpeg。如果你想将它裁剪成图像,那么它取决于项目的上下文来确定最佳的脚本。

一个相当复杂的问题。如果您希望提供有关该项目的更多详细信息,那么我可以提供更多指导。祝你好运。