提取PDF的标题(粗体和格式)

时间:2019-05-18 14:46:35

标签: python pdfminer

我想抓取PDF标题。 例如:1个标题        1.1子标题        1.2副标题2       2标头2

所有这些标头均已格式化且为粗体。我知道我可以使用正则表达式,但是文本中也使用了数字,并且标题也有所不同。 我想使用PDFMiner抓取标题。

我第一次尝试使用正则表达式,但是标题却多种多样。 不,我使用pdfminer提取了版式,但是,两者没有什么不同。

0 个答案:

没有答案