应用错误收集

OS / Web服务器：Ubuntu 16（在Vagrant / VirtualBox中运行）/ Nginx，UWSGI

Python：3.6.8

W：2.4

Django：最新版本2.1

我已经设置了wagtail_textract，并在我的自定义用户模型上使用了TranscriptionMixin。我遇到了两个问题：首先，当我上传文档时，即使文档上传正常，也不会进行转录。这发生在带有文本的pdf上。我已经在handlers.py中的text = textract.process(document.file.path).strip()中记录了执行，直到def transcribe_document(document)中的textract.process(document.file.path)。在该行之后不执行任何语句。如果我尝试从Wagtail管理员中删除上载的文档，则会出现一个错误，指出该文档正忙，因此transcribe_documents似乎在锁定该文件。

我可以通过运行管理命令（transcribe_documents）进行转录，但是在回落到tesseract的文档上，它不会捕获任何文本（尽管tessdata命令确实完成了没有错误）。因此它正在运行tesseract，但没有文本经过OCR处理。我将您的样本文档用于OCR尝试。我已经在项目文件夹as instructed中放置了一个transcribe_documents目录，并下载了正确的英语文件（对于Tesseract 3-您网站上的链接适用于Tesseract 4语言文件）。

?:有什么想法会导致保存时不会转录文档，而有什么想法会导致尝试尝试OCR时tesseract无法产生任何结果？

更新：我在另一台服务器（Ubuntu 18，没有Vbox / Vagrant，其他都一样）上尝试了此操作。在此服务器上，包含文本的PDF在上载时确实具有正确提取的文本，但是在上载时仍未转录需要OCR的文档。但是，当我在此服务器上运行$Credential = Get-Credential管理命令时，它现在可以在需要时正确地OCR文档。

保存文档时，Wagtail Textract（wagtail_textract）无法转录

0 个答案: