目前,当我使用PyPDF2读取pdf格式的python文本时,它将任何上标转换为换行符上的常规文本。有什么方法可以将上标直接转换为上标而不是常规文本。
例如: 这行文字:
1¹¹ᐟ⁴2⁵3¹4²5¹¹ᐟ⁴6¹7²¹ᐟ²
被隐瞒:
\ n1 \ n11 / 4 \ n2 \ n5 \ n3 \ n1 \ n4 \ n2 \ n5 \ n11 / 4 \ n6 \ n1 \ n7 \ n2 \ n7 \ n21 / 2
我创建了一个部分解析器,将其转换回上标,但是如果有一种方法可以将其直接读取为上标,则容易得多。