Question

我想从PDF文件中提取文本。我可以成功安装tesseract（它在终端中工作）和textract（在this指令之后）。

然而，当我运行代码时，我收到了一个错误。

text = textract.process(
    '/Users/Text/en.pdf',
    method='tesseract',
    language='eng',
)

错误是：

/usr/local/lib/python3.4/site-packages/textract-1.4.0-py3.4.egg/textract/parsers/pdf_parser.py in extract_tesseract(self, filename, **kwargs)
     62                 page_content = TesseractParser().extract(page_path, **kwargs)
     63                 contents.append(page_content)
---> 64             return ''.join(contents)
     65         finally:
     66             shutil.rmtree(temp_dir)

TypeError: sequence item 0: expected str instance, bytes found

我尝试了几次修改，但它们从不起作用，我也得到了同样的错误。

return b''.join(contents)
在contents = [str(item) for item in contents]

return

在contents = [item.decode("utf-8") for item in contents]

return

Answer 1

实际上，我在Japanese Stackoverflow (スタックオーバーフロー)做了同样的问题并得到了解决方案。以下是我对核心部分的翻译。（谢谢，@ mjy）。

注意：此修改至少适用于英语。

pdf_parser.py的第64行将return ''.join(contents)更改为

return "".join(item.decode('utf-8') if isinstance(item, bytes) else item for item in contents)

但是，会发生另一个错误。

NameError: name 'unicode' is not defined
在utils.py的第54行，将if isinstance(text, unicode): (...cont...)更改为
```
if isinstance(text, str):
    return text
```

在Python3 textract库

1 个答案: