应用错误收集

我有一个项目，我需要从消息传递应用程序转换屏幕截图并将其转换为机器可读格式（可能是JSON）。我问你是否可以概述我的算法的基本方法。我打算用Python写我的算法。

如何保持来回/对话格式。我应该将源图像分成单独的块，每个蓝/白气泡一个块吗？我随后将这些单独的语音气泡送入OCR引擎，并保持订购。
哪种OCR引擎最适合截图？显然我的源图像不是手写的。机器上印有指定字体和字体大小的文本。由于今天的“视网膜”显示器的截图是高分辨率，但仍然是低DPI。我应该重新缩放/调整图像大小吗？
我该如何处理表情符号？消息传递应用程序用户可以选择插入表情符号。同样，这套表情符号定义明确。是否可以教授OCR课程来学习这些角色？

图片供参考