如何从Nodejs中的png获取文本?

时间:2016-06-22 21:31:28

标签: node.js image text tesseract text-extraction

我尝试在此图片上使用tesseract-ocr:http://ablazinradio.com/site/wp-content/uploads/2015/06/lebron-james-cavs.jpg但它不返回带有“Cavs”或“23”的文本,它不会返回任何内容。是否还有其他npm模块可以从该图像中提取文本,还是可以以某种方式手动执行?感谢。

2 个答案:

答案 0 :(得分:1)

我刚刚通过tesseract运行这个,我得到了绝对的胡言乱语。

Tesseract真的没有能力处理这种图像,特别是没有对图像进行任何预处理。

我不认为您会找到任何可以处理该图片的开源软件。

也许可以将Google Vision API改为https://cloud.google.com/vision/docs/

否则,如果您愿意花更多时间在tesseract上,我建议您查看tesseract wiki以尝试改善您的结果https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

答案 1 :(得分:0)

因此,textract 是有助于 nodejs 项目和 tika for python 的包。 但是 textract 的问题是它要求您需要为操作系统安装工具,例如 pdftotext(用于 pdf)、antiword(用于 Word 文档)、unrtf(用于 rtf)、tesseract(用于图像)、drawingtotext(用于 DXF 文件)。这适用于您了解操作系统的传统服务器。但在云函数或 lambda 函数中,您不了解操作系统,如果可能,仍然具有成本效益。

https://www.npmjs.com/package/textract