我们有什么办法可以用jpg jpeg或任何其他格式从扫描文档中获取文本?我使用ruby作为我的编程语言。但我想如果我能在其他编程语言的帮助下获得文本,那么整合就不会有什么问题了。
感谢。
答案 0 :(得分:2)
是的,您可以使用OCR库。 https://stackoverflow.com/questions/1085/free-ocr-library还有其他详细信息。
简而言之,您可能希望考虑使用tessnet(http://www.pixel-technology.com/freeware/tessnet2/)。
答案 1 :(得分:1)
这项技术被称为光学字符识别(OCR)。
对于编程check out this question,建议使用tesseract-ocr。
答案 2 :(得分:0)
OCR终端http://www.ocrterminal.com是我用过的至少十几个中最好的(最准确的)免费工具。它适用于格式化(表格)数据。