我正在做一个抄袭检查器作为附带项目。
我想知道如何从文档such as bold text or big titles
中提取文本和相关元数据的方法。
我将在每种语言的框架上使用python或javascript。
我计划支持pdf和ms word文档。
那么我该如何从文档中提取所需的数据呢?
答案 0 :(得分:0)
我记得有一个用于读取doc文件中单词的库 您可以使用python-docx2txt提取doc中的单词,您可以在终端中将其粘贴以安装库:pip install docx2txt
import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)
不仅如此,如果您要使用该程序进行编辑,例如在Word文件中添加新段落或添加新表,还可以安装python-docx库以使用功能...关于PDF ermmm的信息已发布我学习的全部内容。...但是我认为您可以尝试检查一下https://github.com/euske/pdfminer,这也许会让您有些想法:D
答案 1 :(得分:0)
有几个模块/包可以从 PDF 中获取元数据
*** PDF 矿工***
PDFMiner 是一款用于 PDF 文档的文本提取工具。
纯 Python(3.6 或更高版本)。
def extract_text_from_pdf(pdf_path):
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import PDFPage
import io,os,re
import gc
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle)
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(pdf_path, 'rb') as fh:
for page in PDFPage.get_pages(fh, caching=True,check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
converter.close()
fake_file_handle.close()
if text:
return text
extract_text_from_pdf("abc/xyz.pdf")
使用 docx2txt 从 docx 中获取元数据
*** DOCX2TXT ***
python-docx 是一个用于创建和更新 Microsoft Word (.docx) 文件的 Python 库。
一个纯基于 python 的实用程序,用于从 docx 文件中提取文本。
import docx2txt
# extract text
text = docx2txt.process("file.docx")