Question

我正在尝试从表格中的PDF中提取数据。我可以使用熊猫提取数据并读取数据。

最近数据发生了变化，现在我想只提取那些在PDF表中带有下划线的值。表结构相同。但是要提取的数据已加下划线。bi尝试使用OCR，tessaract来提取数据，但运气不好，因为他们提取了所有数据。但是我只需要带下划线的数据。

如果有帮助，下划线始终为红色。

我正在使用Python作为编程语言。

Answer 1

for run in para.runs:
    if run.font.underline :
        underline.append(run.text)