我试图找出PDF中文本的字体系列和字体大小,其中包含不同字体和大小的各种行。此外,它必须与Python 3.5兼容,我很惊讶没有简单的方法来做到这一点。
我想要像
这样的东西f = open('a.pdf', 'r')
f.read_line_with_font_and_size()
f.read_line_with_font_and_size()
输出可以像这样或者json
(“你好”,[(“Arial”,“23”)])
([“如何解析”,“ PDF in Python3 ”],[(“Arial”,“20”),(“Calibri”,15,“Bold”)])< / p>
只是为了迭代,我不是在寻找图书馆。我正在寻找一种简单的方法来读取pdf文件的字体大小。 Pdfminer.six第三方库在Python3上工作以提取字体系列和字体大小,但我正在寻找代码来自己完成而不使用该库。