python - 将PDF转换为HTML以在python中获得粗体和字体大小

我想从pdf中获取粗体和文本大小，但是我无法从pdf中提取此类信息。

因此，我想在python中将pdf转换为html，并且尝试了所有我知道的可能的库，但是没有一个库能正常工作，我的格式在每个库中都受到干扰。我已经尝试了pdfminer.six，pdf2htmlEX等，但没有一个以正确的格式提供输出。我知道这个问题以前已经被问过很多次了，但是到目前为止，没有一个问题对我来说很完美。

PDF链接：https://github.com/sahib-s/Heading-Detection-PDF-Files/blob/master/1.pdf

问题：在pdf的第一页，COURSE OBJECTIVE是单行的，但转换后又分成了不同的标签。我到处都有类似的问题。我想在相同的标签中找到标题。

将PDF转换为HTML以在python中获得粗体和字体大小

0 个答案: