从pdf中提取带下划线的文本

时间:2019-04-25 03:57:05

标签: python pandas pdf ocr

我正在尝试从表格中的PDF中提取数据。我可以使用熊猫提取数据并读取数据。

最近数据发生了变化,现在我想只提取那些在PDF表中带有下划线的值。表结构相同。但是要提取的数据已加下划线。bi尝试使用OCR,tessaract来提取数据,但运气不好,因为他们提取了所有数据。但是我只需要带下划线的数据。

如果有帮助,下划线始终为红色。

我正在使用Python作为编程语言。

1 个答案:

答案 0 :(得分:-1)

for run in para.runs:
    if run.font.underline :
        underline.append(run.text)