我正在进行草书文字阿拉伯语,乌尔都语的分割。通过计算一行中暗像素的密度来正确检测文本行。通过使用以下代码来裁剪具有超过阈值像素的连续行:
%断路器
divisions = [(MaxPixelsPerLine(1));MaxPixelsPerLine(difference > 10); ];
%在循环中使用分割,用于分割所有行
line = img(divisions(i):divisions(i+1), :);
输出:
在此输出中,分段行包含来自相邻行的单词部分。我希望线段(来自相邻线)的点不应该将重叠的字符切成两部分。如果一条线的小连接分量(在这种情况下)或字符的点/变音符号超过相邻线,那么它应该用相应的线(它所属的线)适当地切割。
这是所需的输出:
我不想要其他算法/技巧。如何修改此算法以获得所需的结果?
感谢。