Question

我正在做一个抄袭检查器作为附带项目。我想知道如何从文档such as bold text or big titles中提取文本和相关元数据的方法。

我将在每种语言的框架上使用python或javascript。

我计划支持pdf和ms word文档。

那么我该如何从文档中提取所需的数据呢？

Answer 1

我记得有一个用于读取doc文件中单词的库您可以使用python-docx2txt提取doc中的单词，您可以在终端中将其粘贴以安装库：pip install docx2txt

import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)

不仅如此，如果您要使用该程序进行编辑，例如在Word文件中添加新段落或添加新表，还可以安装python-docx库以使用功能...关于PDF ermmm的信息已发布我学习的全部内容。...但是我认为您可以尝试检查一下https://github.com/euske/pdfminer，这也许会让您有些想法：D

Answer 2

有几个模块/包可以从 PDF 中获取元数据

*** PDF 矿工***

PDFMiner 是一款用于 PDF 文档的文本提取工具。

纯 Python（3.6 或更高版本）。

def extract_text_from_pdf(pdf_path):
    from pdfminer.converter              import TextConverter
    from pdfminer.pdfinterp              import PDFPageInterpreter
    from pdfminer.pdfinterp              import PDFResourceManager
    from pdfminer.pdfpage                import PDFPage
    import io,os,re
    import gc
    resource_manager = PDFResourceManager()
    fake_file_handle = io.StringIO()
    converter = TextConverter(resource_manager, fake_file_handle)
    page_interpreter = PDFPageInterpreter(resource_manager, converter)
    with open(pdf_path, 'rb') as fh:
        for page in PDFPage.get_pages(fh, caching=True,check_extractable=True):
            page_interpreter.process_page(page)
        text = fake_file_handle.getvalue()
    converter.close()
    fake_file_handle.close()
    if text:
        return text

extract_text_from_pdf("abc/xyz.pdf")

使用 docx2txt 从 docx 中获取元数据

*** DOCX2TXT ***

python-docx 是一个用于创建和更新 Microsoft Word (.docx) 文件的 Python 库。
一个纯基于 python 的实用程序，用于从 docx 文件中提取文本。
```
import docx2txt

# extract text
text = docx2txt.process("file.docx")
```

从pdf和文档中提取文本和元数据

2 个答案: