我正在尝试从表格PDF中提取粗体文本。我已经设法使用“ python-docx”库从PDF中提取粗体文本。现在,我正在努力从PDF中提取粗体文本。
首先,我使用Word将我的PDF文件转换为docx文件。我手动将其打开,然后将其保存为.docx格式。 (我需要对其进行自动化,以便您有任何想法。我想我将创建一个bat文件)
无论如何,我正在docx表格文件中执行以下代码:
import docx
def extract_bolds(file_path):
document = docx.Document(file_path)
for table in document.tables:
for row in table.rows:
for cell in row.cells:
for para in cell.paragraphs:
for run in para.runs:
if run.bold :
print(run.text)
extract_bolds('my_docx_file_path.docx')
这有点工作,但是结果有重复。
例如,预期结果可能是: 'Foo' “酒吧”
但是我有: 'Foo' 'Foo' 'Foo' 'Foo' '酒吧' '酒吧' '酒吧' “酒吧”
谢谢