我有带文字,图像和表格的彩色图像文件。 文档可以有两列。 文档是从区域合成的:区域标题和文本(较大的字体,可以有不同的字体颜色和类似子标题的附加数据)。
我需要做什么。 我需要在图像文档中找到带有标题的文本区域。 我需要知道什么。 如何划分文件在特定部分划分文件的方法。
我在java中尝试使用opencv(如果有人有python和c ++版本我可以自己将其转换为java版本)。我发现堆栈溢出时几乎没有类似的问题,但没有一个可以帮助我。您必须知道我的opencv知识不是很好,而且只是来自在线教程和堆栈溢出。
我的问题是用opencv方式有什么好的解决方案,还是我需要使用别的东西,不同的库或应用来实现这个目标?
唯一的要求是必须从命令行完成。
如果我有这个领域,我可以做我接下来需要的,但这是阻止我的步骤。
答案 0 :(得分:0)
您可以使用文本检测结合扩张来检测粗体文本,即标题,然后将两个连续标题之间的文本框分组为第一个标题下的文本。
答案 1 :(得分:-1)
您解决了这个问题吗?
我正在研究类似的问题。
我的解决方案是使用HoughLines
https://docs.opencv.org/3.4.0/d9/db0/tutorial_hough_lines.html