OS / Web服务器:Ubuntu 16(在Vagrant / VirtualBox中运行)/ Nginx,UWSGI
Python:3.6.8
W:2.4
Django:最新版本2.1
我已经设置了wagtail_textract,并在我的自定义用户模型上使用了TranscriptionMixin
。我遇到了两个问题:首先,当我上传文档时,即使文档上传正常,也不会进行转录。这发生在带有文本的pdf上。我已经在handlers.py
中的text = textract.process(document.file.path).strip()
中记录了执行,直到def transcribe_document(document)
中的textract.process(document.file.path)
。在该行之后不执行任何语句。如果我尝试从Wagtail管理员中删除上载的文档,则会出现一个错误,指出该文档正忙,因此transcribe_documents
似乎在锁定该文件。
我可以通过运行管理命令(transcribe_documents
)进行转录,但是在回落到tesseract的文档上,它不会捕获任何文本(尽管tessdata
命令确实完成了没有错误)。因此它正在运行tesseract,但没有文本经过OCR处理。我将您的样本文档用于OCR尝试。我已经在项目文件夹as instructed中放置了一个transcribe_documents
目录,并下载了正确的英语文件(对于Tesseract 3-您网站上的链接适用于Tesseract 4语言文件)。
?:有什么想法会导致保存时不会转录文档,而有什么想法会导致尝试尝试OCR时tesseract无法产生任何结果?
更新:我在另一台服务器(Ubuntu 18,没有Vbox / Vagrant,其他都一样)上尝试了此操作。在此服务器上,包含文本的PDF在上载时确实具有正确提取的文本,但是在上载时仍未转录需要OCR的文档。但是,当我在此服务器上运行$Credential = Get-Credential
管理命令时,它现在可以在需要时正确地OCR文档。