计算x& y PDF文档中特定文本的坐标,宽度和高度

时间:2010-10-28 15:34:29

标签: flash pdf accessibility

在我的网站上,我在Flash播放器中显示上传的PDF文件供我的用户阅读。

我已经使用各种工具提取文本并从文件中生成大量高质量图像,系统运行良好。

最后一个难题是能够突出显示文档的特定部分,以帮助用户解决可访问性问题。

但是我无法弄清楚如何计算特定文本在页面上的位置?

注意:

  • 上传到系统的文件来自第三方,因此可以嵌入字体。这意味着我无法确定特定字母的宽度。
  • 要突出显示的文字可能不唯一,可能会重复相同的文字

如何计算PDF上特定文本的坐标,高度和宽度,以便我可以在其周围绘制一个框?

1 个答案:

答案 0 :(得分:1)

我在www.quickpdf.com上使用了一个名为QuickPDF的SDK来处理最近的项目。

他们有一个名为ExtractFilePageText()的函数,可以返回文本,字体,边界框坐标。

提取选项包括: -

0 =以人类可读的格式提取文本 2 =返回一个CSV字符串,包括每个字体的颜色,大小和位置 页面上的文字 使用更准确的文本提取算法: 3 =使用以下内容为页面上的每段文本返回CSV字符串 格式: 字体名称,文字颜色,文字大小,X1,Y1,X2,Y2,X3,Y3,X4,Y4,文字 坐标是以文本为单位的四个点(以1/72为单位) 以页面左下角为原点 4 =与选项3类似,但返回单个单词,进行搜索 单词更容易。

需要开发人员许可证,但没有运行时版税。它有许多其他有用的功能,适用于多种语言。 documentation也很不错。