Question

我正在尝试从表格PDF中提取粗体文本。我已经设法使用“ python-docx”库从PDF中提取粗体文本。现在，我正在努力从PDF中提取粗体文本。

首先，我使用Word将我的PDF文件转换为docx文件。我手动将其打开，然后将其保存为.docx格式。（我需要对其进行自动化，以便您有任何想法。我想我将创建一个bat文件）

无论如何，我正在docx表格文件中执行以下代码：

import docx

def extract_bolds(file_path):
    document = docx.Document(file_path)
    for table in document.tables:
        for row in table.rows:
            for cell in row.cells:
                for para in cell.paragraphs:
                    for run in para.runs:
                        if run.bold :
                            print(run.text)
extract_bolds('my_docx_file_path.docx')

这有点工作，但是结果有重复。

例如，预期结果可能是： 'Foo' “酒吧”

但是我有： 'Foo' 'Foo' 'Foo' 'Foo' '酒吧' '酒吧' '酒吧' “酒吧”

谢谢

如何从表格PDF中提取粗体文本？

0 个答案: