从图像中检测和裁剪文本块(段落)的简便方法是什么?

时间:2017-02-11 10:00:00

标签: image opencv numpy ocr

我已就这个问题做了一些研究,但我认为我的问题与以前的问题有很大的不同。

我的博士论文涉及对旧字典进行OCR并将结果自动转换为类似XML的数据库。这部分我已经想通了。但是,我想通过显示用于每个条目/词条的扫描片段来丰富最终结果。由于字典长度差不多9000页,因此手动执行是不可能的。

这是随机页面的外观:http://i.imgur.com/X2mPZr0.png

由于每个条目总是等于一个段落,我想找到一种方法将每个图像分成带有文本的矩形(不需要OCR)作为单独的文件,如下所示(不绘制矩形): http://i.imgur.com/CWtQD6Q.png

好处是我的扫描在形状和大小上是相同的,并且在边距/文本对齐方面类似。每个段落也总是有一个标识。

糟糕的是,我主要是语言学家而不是程序员。我的大多数经验都是使用Ruby,XML和CSS。而且有些段落只有一行。

我知道一些类似的方法:

但是我需要花费大量的时间来学习(特别是我对Python有0个知识)并且我不知道它们是否不仅允许文本检测,还允许段落检测。

对此事的任何意见或建议都将不胜感激,特别是对新手友好。

1 个答案:

答案 0 :(得分:4)

我有一些想法可以分享......我想我会继续这样做:

第1步 - 黑白阈值

我想我会使用OpenCV的Otsu阈值处理。

第2步 - 查找垂直黑线

我会对图像的每一列中的像素进行平均,找到平均值最低的像素,并且应该是中间的垂直线。以下代码输出:

Centreline at column: 1635

步骤3 - 将图像分成两部分并修剪多余的空白

enter image description here enter image description here

第4步 - 框过滤器

我会使用一个55x45的盒子进行过滤,该盒子与每个段落开头的缩进相匹配,然后是阈值,所以所有段落的开头都标有黑框。

enter image description here

我对OpenCV很陌生,但已将上述想法编码如下 - 我相信它可以更强大,更高效,因此将其视为概念性的; - )

#include <iostream>
#include <opencv2/opencv.hpp>

using namespace cv;
using namespace std;

int
main(int argc,char*argv[])
{
   // Load image
   Mat orig=imread("page.png",IMREAD_COLOR);

   vector<int> PNGwriteOptions;
   PNGwriteOptions.push_back(CV_IMWRITE_PNG_COMPRESSION);
   PNGwriteOptions.push_back(9);

   // Get greyscale and Otsu-thresholded version
   Mat bw,grey;
   cvtColor(orig,grey,CV_RGB2GRAY);
   threshold(grey,bw,0,255,CV_THRESH_BINARY|CV_THRESH_OTSU);

   // Find vertical centreline by looking for lowest column average - i.e. darkest vertical bar
   Mat colsums;
   reduce(bw,colsums,0,CV_REDUCE_AVG);
   double min,max;
   Point min_loc, max_loc;
   minMaxLoc(colsums,&min,&max,&min_loc,&max_loc);
   cout << "Centreline at column: " << min_loc.x << endl;

   namedWindow("test",CV_WINDOW_AUTOSIZE);

   // Split image into left and right
   Rect leftROI(0,0,min_loc.x,bw.rows);
   Mat  leftbw=bw(leftROI);
   Rect rightROI(min_loc.x+8,0,bw.cols-min_loc.x-8,bw.rows);
   Mat  rightbw=bw(rightROI);
   imshow("test",leftbw);
   waitKey(0); 
   imshow("test",rightbw);
   waitKey(0); 

   // Trim surrounding whitespace off
   Mat Points;
   Mat inverted =  cv::Scalar::all(255) - leftbw;
   findNonZero(inverted,Points);
   Rect bRect=boundingRect(Points);
   Mat lefttrimmed=leftbw(bRect);

   inverted =  cv::Scalar::all(255) - rightbw;
   findNonZero(inverted,Points);
   bRect=boundingRect(Points);
   Mat righttrimmed=rightbw(bRect);

   imwrite("lefttrimmed.png",lefttrimmed,PNGwriteOptions);
   imwrite("righttrimmed.png",righttrimmed,PNGwriteOptions);

   // Box filter with 55x45 rectangle to match size of paragraph indent on left
   Mat lBoxFilt,rBoxFilt;
   boxFilter(lefttrimmed,lBoxFilt,-1,Size(55,45));
   normalize(lBoxFilt,lBoxFilt,0,255,NORM_MINMAX,CV_8UC1);
   threshold(lBoxFilt,lBoxFilt,254,255,THRESH_BINARY_INV);
   imwrite("leftBoxed.png",lBoxFilt,PNGwriteOptions);

}

enter image description here

以防你需要一只手来构建这个代码 - 因为编译和链接任何东西似乎并不重要 - 我创建了这样的CMakeLists.txt文件并将其存储在与源相同的目录中文件。然后我创建一个名为build的子目录来执行“out-of-source”内置,并且构建过程是:

cd build
cmake ..
make -j 8
./demo

<强>的CMakeLists.txt

cmake_minimum_required(VERSION 2.8)
project(demo)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11")
find_package(OpenCV)
add_executable(demo main.cpp)
target_link_libraries(demo ${OpenCV_LIBS})