保存文档时,Wagtail Textract(wagtail_textract)无法转录

时间:2019-04-16 00:37:49

标签: python wagtail text-extraction

OS / Web服务器:Ubuntu 16(在Vagrant / VirtualBox中运行)/ Nginx,UWSGI

Python:3.6.8

W:2.4

Django:最新版本2.1

我已经设置了wagtail_textract,并在我的自定义用户模型上使用了TranscriptionMixin。我遇到了两个问题:首先,当我上传文档时,即使文档上传正常,也不会进行转录。这发生在带有文本的pdf上。我已经在handlers.py中的text = textract.process(document.file.path).strip()中记录了执行,直到def transcribe_document(document)中的textract.process(document.file.path)。在该行之后不执行任何语句。如果我尝试从Wagtail管理员中删除上载的文档,则会出现一个错误,指出该文档正忙,因此transcribe_documents似乎在锁定该文件。

我可以通过运行管理命令(transcribe_documents)进行转录,但是在回落到tesseract的文档上,它不会捕获任何文本(尽管tessdata命令确实完成了没有错误)。因此它正在运行tesseract,但没有文本经过OCR处理。我将您的样本文档用于OCR尝试。我已经在项目文件夹as instructed中放置了一个transcribe_documents目录,并下载了正确的英语文件(对于Tesseract 3-您网站上的链接适用于Tesseract 4语言文件)。

?:有什么想法会导致保存时不会转录文档,而有什么想法会导致尝试尝试OCR时tesseract无法产生任何结果?

更新:我在另一台服务器(Ubuntu 18,没有Vbox / Vagrant,其他都一样)上尝试了此操作。在此服务器上,包含文本的PDF在上载时确实具有正确提取的文本,但是在上载时仍未转录需要OCR的文档。但是,当我在此服务器上运行$Credential = Get-Credential 管理命令时,它现在可以在需要时正确地OCR文档。

0 个答案:

没有答案