我有一张包含表格的扫描文字文件。我需要提取扫描图像中每个单元格/矩形的内容。例如,看看这张图片:
鉴于该图像,我需要在c#中为图像中的每个单元格检索一个矩形(坐标)数组。我正在使用AForge,但这不是必需的。
我尝试了什么:
我尝试过使用blob处理。这在一定程度上有效,但并非总是如此。对于一些图像,它能够检索80-90%的细胞,而在其他一些图像中,它只能检索1个斑点(整个图像)。
我尝试过应用以下过滤器:灰度 - > Otsu Thresholding - > Canny边缘检测然后用霍夫线变换处理最终图像。我希望它能将直线保持为黑色,其他所有内容都保持白色,这样可以使用自定义算法更轻松地完成任务。但是,它要么检测其他行(可能来自文本),要么跳过单元格之间的某些行。
我尝试在我的两次尝试中应用不同的过滤器组合,但我没有成功。我怎样才能实现这样的目标呢?