OCR是否有行业标准输出格式?

时间:2013-06-04 00:14:39

标签: standards ocr

OCR是否有行业标准输出格式?我似乎无法找到任何被定义为行业标准的东西,也不是我对OCR非常有经验所以我不知道是否有标准。

3 个答案:

答案 0 :(得分:2)

hOCR是一个开放标准,它定义了表示OCR输出的数据格式。

答案 1 :(得分:1)

没有这样的格式,但有一些常用的做法和开放标准格式可以满足您的要求。这个问题就像问“煮土豆的标准结果是什么”。土豆泥,炸薯条,或烤(不知道那个例子来自哪里,我一定饿了......)

此外,“行业标准”将取决于具体行业。如果您处于特定的垂直行业,那么某些格式将比其他格式更常见(几乎是标准的)。例如:

  • 医疗 - HL7格式的文字
  • 图书馆 - ALTO PDF
  • 法律/电子发现 - 图像下的PDF文本
  • 集成/自动化 - XML

总的来说,如果我回答你最常用和行业认可的格式是:TXT,XML,PDF(几种口味),我也不会错。每种都具有独特的属性和特定用途,但由于开放标准,每种技术都可以被其他技术广泛使用。

从另一端接近它更好,这意味着通过“业务需求”来思考数据会发生什么以及需要吸收的地方应该准确定义您希望从OCR输出中使用哪种切换格式。 / p>

答案 2 :(得分:0)

XIEO(http://xieo.info)使用称为CML(Clix标记语言)的(Maya Software)专有格式,可以有效地对页面,区域,行,文本框和相关信息进行编码。 VisualText / NLP ++(可在http://www.textanalysis.com获得)有一个特殊的标记器传递给"吸气"格式化并生成现成的解析树。然后,NLP ++分析器可以构建在该初始解析树上。

此工作流程已在XIEO使用超过5年,主要用于处理正式记录文件(契约,抵押,法庭书记等)并从中提取信息。

可以在此工作流程中清理OCR文本,重新区域以修复OCR错误和错误分区,并从文本中提取相关信息。

Amnon Meyers,Text Analysis International,Inc首席技术官amnon.meyers@textanalysis.com