Ghostscript txtwrite bbox限制

时间:2019-01-23 07:42:11

标签: pdf ghostscript bounding-box pdf-parsing

当我将ghostscripttextwrite设备一起使用时,我得到的XML文件描述了我的pdf,即

<page>
    <block>
        <line>
            <span bbox="95 97 357 97" font="..." size="9.0000">
                <char bbox="95 97 106 97" c="a"/>
                <char bbox="106 97 117 97" c="b"/>
                <char bbox="117 97 126 97" c="c"/>
                ...
            </span>
        </line>
    </block>
    <block>
    ...

我的问题是bbox(边界框)坐标(X1,Y1,X2,Y2)是否存在已知比例,或者它们是否与页面相关?无论如何,我可以以任何方式获取页面网格以了解其高度和宽度吗?

我的主要观点是太了解功能,例如字符是否位于页面中心之外等。

pdf转换为XML的完整命令:

ghostscript -q -sPAPERSIZE=a4 -r200 -sDEVICE=txtwrite" -sOutputFile=<output-path.xml> -dTextFormat=1 -dBATCH -dNOPAUSE <input-path.pdf>

1 个答案:

答案 0 :(得分:0)

边界框以1/72英寸的PostScript / PDF单位显示。请注意,输出不是真正的XML,而是“喜欢”的XML。