标签: python pdfminer
我想抓取PDF标题。 例如:1个标题 1.1子标题 1.2副标题2 2标头2
所有这些标头均已格式化且为粗体。我知道我可以使用正则表达式,但是文本中也使用了数字,并且标题也有所不同。 我想使用PDFMiner抓取标题。
我第一次尝试使用正则表达式,但是标题却多种多样。 不,我使用pdfminer提取了版式,但是,两者没有什么不同。