我将科学(STEM)图像解释为其组成部分并添加语义。这些图像是数字的,无噪声的,并且是二进制(单色)或具有少量颜色。我希望Java库/方法将图像划分为空白分隔的组件,并识别(分类)生成的段。典型的图像是:
我希望提取的段包含数字和其他字符(一些旋转)和图中的星号。 [我将使用其他方法来提取几何组件 - 例如酒吧)。我还希望该库识别相同的段(例如,6个零字符,5个小数点)。我已成功将Tesseract用于字符,但许多段可能不属于Unicode字符集(例如,专用创建的符号)。
更新:我已经开了一笔赏金。我只对库感兴趣,而不是对算法的建议,因为我已经编写了原型。如果功能是更大系统的一部分(例如我认为JBIG2具有此功能),请明确入口点的位置。
注意:“born-digital”意味着图像创建时没有噪音,线条简洁,与扫描文档不同。
答案 0 :(得分:2)
我只知道openCV。有了这个,您可以分析您的图像,如: