我正在尝试从表格中的PDF中提取数据。我可以使用熊猫提取数据并读取数据。
最近数据发生了变化,现在我想只提取那些在PDF表中带有下划线的值。表结构相同。但是要提取的数据已加下划线。bi尝试使用OCR,tessaract来提取数据,但运气不好,因为他们提取了所有数据。但是我只需要带下划线的数据。
如果有帮助,下划线始终为红色。
我正在使用Python作为编程语言。
答案 0 :(得分:-1)
for run in para.runs:
if run.font.underline :
underline.append(run.text)