应用错误收集

提取PDF的标题（粗体和格式）

时间：2019-05-18 14:46:35

标签： python pdfminer

我想抓取PDF标题。例如：1个标题 1.1子标题 1.2副标题2 2标头2

所有这些标头均已格式化且为粗体。我知道我可以使用正则表达式，但是文本中也使用了数字，并且标题也有所不同。我想使用PDFMiner抓取标题。

我第一次尝试使用正则表达式，但是标题却多种多样。不，我使用pdfminer提取了版式，但是，两者没有什么不同。

0 个答案:

没有答案