我是角色识别和机器学习的完全初学者。
我想编写一个能够处理以下输入的程序:
中文字符的分解总是3件事:2个其他字符和描述2字符如何组成初始字符的模式(称为 compoisition kind )。在上面的示例中,合成类型是"水平对齐"。
鉴于这样的输入,我希望我的程序能够判断哪些像素或初始字符中的哪些轮廓属于其分解中的哪个子字符。
从哪里开始?
答案 0 :(得分:2)
好吧,我不能说我提供了完整的答案,但想一想:
1)阅读有关Google翻译应用程序如何运作的论文。您知道,当您将iPhone的相机对准文本时,它会立即翻译文本(甚至保留字体!)。它支持chineese语言,所以你会很有兴趣看看他们是否解决了类似的任务以及他们是如何做到的
2)另一个要回答的重要问题 - 如何准备输入数据。您将需要提供至少一些输入数据 - 即至少一些字符的分解。尝试对几个字符手动执行此操作并尝试形式化您正在做的事情 - 这将帮助您更好地制定您希望算法执行的操作。
3)尝试使用一些深度神经网络和#2中的数据。使用卷积图层的东西。用RBM(限制的boltzmann机器)预训练它。在那之后 - 只需仔细研究一下最终的神经网络。不要期望获得任何好的结果,但是查看ANN层将有助于您了解网络从数据中学到了什么,并可能提供一些有关下一步移动的信息