应用错误收集

如何从Nodejs中的png获取文本？

时间：2016-06-22 21:31:28

标签： node.js image text tesseract text-extraction

我尝试在此图片上使用tesseract-ocr：http://ablazinradio.com/site/wp-content/uploads/2015/06/lebron-james-cavs.jpg但它不返回带有“Cavs”或“23”的文本，它不会返回任何内容。是否还有其他npm模块可以从该图像中提取文本，还是可以以某种方式手动执行？感谢。

2 个答案:

答案 0 :(得分：1)

我刚刚通过tesseract运行这个，我得到了绝对的胡言乱语。

Tesseract真的没有能力处理这种图像，特别是没有对图像进行任何预处理。

我不认为您会找到任何可以处理该图片的开源软件。

也许可以将Google Vision API改为https://cloud.google.com/vision/docs/

否则，如果您愿意花更多时间在tesseract上，我建议您查看tesseract wiki以尝试改善您的结果https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

答案 1 :(得分：0)

因此，textract 是有助于 nodejs 项目和 tika for python 的包。但是 textract 的问题是它要求您需要为操作系统安装工具，例如 pdftotext（用于 pdf）、antiword（用于 Word 文档）、unrtf（用于 rtf）、tesseract（用于图像）、drawingtotext（用于 DXF 文件）。这适用于您了解操作系统的传统服务器。但在云函数或 lambda 函数中，您不了解操作系统，如果可能，仍然具有成本效益。

https://www.npmjs.com/package/textract