我正在编写一个程序,将TeX
生成的PDF转换回类似TeX
的文本字符串。为了实现这一点,我使用Apache PDFBox
。
我希望能够检测下标,上标,然后使用类似TeX
的方法来表示它们。我已经读过这个问题:Superscript and subscript differentiation using pdf box并没有太大帮助,因为不可能使用Y
和EndY
来检测下标和上标,可能是因为它们是相对的。有什么方法可以检测文本的绝对位置?只要人们使用旧的TeX字体,字形的高度实际上就很容易获得,因此我可以轻松地检测到字体大小的变化。