将PDF转换为HTML以在python中获得粗体和字体大小

时间:2019-07-17 12:48:13

标签: python html python-3.x pdf

我想从pdf中获取粗体和文本大小,但是我无法从pdf中提取此类信息。

因此,我想在python中将pdf转换为html,并且尝试了所有我知道的可能的库,但是没有一个库能正常工作,我的格式在每个库中都受到干扰。我已经尝试了pdfminer.six,pdf2htmlEX等,但没有一个以正确的格式提供输出。我知道这个问题以前已经被问过很多次了,但是到目前为止,没有一个问题对我来说很完美。

PDF链接:https://github.com/sahib-s/Heading-Detection-PDF-Files/blob/master/1.pdf

问题:在pdf的第一页,COURSE OBJECTIVE是单行的,但转换后又分成了不同的标签。我到处都有类似的问题。我想在相同的标签中找到标题。

0 个答案:

没有答案