从pdf和文档中提取文本和元数据

时间:2020-10-22 23:53:51

标签: javascript python

我正在做一个抄袭检查器作为附带项目。 我想知道如何从文档such as bold text or big titles中提取文本和相关元数据的方法。

我将在每种语言的框架上使用python或javascript。

我计划支持pdf和ms word文档。

那么我该如何从文档中提取所需的数据呢?

2 个答案:

答案 0 :(得分:0)

我记得有一个用于读取doc文件中单词的库 您可以使用python-docx2txt提取doc中的单词,您可以在终端中将其粘贴以安装库:pip install docx2txt

import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)

不仅如此,如果您要使用该程序进行编辑,例如在Word文件中添加新段落或添加新表,还可以安装python-docx库以使用功能...关于PDF ermmm的信息已发布我学习的全部内容。...但是我认为您可以尝试检查一下https://github.com/euske/pdfminer,这也许会让您有些想法:D

答案 1 :(得分:0)

有几个模块/包可以从 PDF 中获取元数据

*** PDF 矿工***

  1. PDFMiner 是一款用于 PDF 文档的文本提取工具。

  2. 纯 Python(3.6 或更高版本)。

    def extract_text_from_pdf(pdf_path):
        from pdfminer.converter              import TextConverter
        from pdfminer.pdfinterp              import PDFPageInterpreter
        from pdfminer.pdfinterp              import PDFResourceManager
        from pdfminer.pdfpage                import PDFPage
        import io,os,re
        import gc
        resource_manager = PDFResourceManager()
        fake_file_handle = io.StringIO()
        converter = TextConverter(resource_manager, fake_file_handle)
        page_interpreter = PDFPageInterpreter(resource_manager, converter)
        with open(pdf_path, 'rb') as fh:
            for page in PDFPage.get_pages(fh, caching=True,check_extractable=True):
                page_interpreter.process_page(page)
            text = fake_file_handle.getvalue()
        converter.close()
        fake_file_handle.close()
        if text:
            return text
    
    extract_text_from_pdf("abc/xyz.pdf")
    

使用 docx2txt 从 docx 中获取元数据

*** DOCX2TXT ***

  1. python-docx 是一个用于创建和更新 Microsoft Word (.docx) 文件的 Python 库。

  2. 一个纯基于 python 的实用程序,用于从 docx 文件中提取文本。

    import docx2txt
    
    # extract text
    text = docx2txt.process("file.docx")