在没有库的情况下从PDF获取Python3中的字体和字体类型

时间:2017-01-02 09:05:30

标签: python python-3.x pdf text

我试图找出PDF中文本的字体系列和字体大小,其中包含不同字体和大小的各种行。此外,它必须与Python 3.5兼容,我很惊讶没有简单的方法来做到这一点。

我想要像

这样的东西
f = open('a.pdf', 'r')
f.read_line_with_font_and_size()
f.read_line_with_font_and_size()

输出可以像这样或者json

  

(“你好”,[(“Arial”,“23”)])

     

([“如何解析”,“ PDF in Python3 ”],[(“Arial”,“20”),(“Calibri”,15,“Bold”)])< / p>

只是为了迭代,我不是在寻找图书馆。我正在寻找一种简单的方法来读取pdf文件的字体大小。 Pdfminer.six第三方库在Python3上工作以提取字体系列和字体大小,但我正在寻找代码来自己完成而不使用该库。

0 个答案:

没有答案