当我将ghostscript
与textwrite
设备一起使用时,我得到的XML
文件描述了我的pdf
,即
<page>
<block>
<line>
<span bbox="95 97 357 97" font="..." size="9.0000">
<char bbox="95 97 106 97" c="a"/>
<char bbox="106 97 117 97" c="b"/>
<char bbox="117 97 126 97" c="c"/>
...
</span>
</line>
</block>
<block>
...
我的问题是bbox(边界框)坐标(X1,Y1,X2,Y2)
是否存在已知比例,或者它们是否与页面相关?无论如何,我可以以任何方式获取页面网格以了解其高度和宽度吗?
我的主要观点是太了解功能,例如字符是否位于页面中心之外等。
将pdf
转换为XML
的完整命令:
ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>
答案 0 :(得分:0)
边界框以1/72英寸的PostScript / PDF单位显示。请注意,输出不是真正的XML,而是“喜欢”的XML。