从基于图像的文档中提取表格

时间:2018-11-27 09:56:31

标签: image ocr document boundary abbyy

是否有任何有效的算法/技术可用于从基于图像的文档中提取表格。我们还具有XML格式的Abbyy OCR输出,该输出具有文档中文本的坐标信息。我们需要解决2个主要问题:

  1. 标识文档中的表格。 (表的结构不是固定的。可以有或没有边界线而具有不同的布局)
  2. 从表中提取文本。

1 个答案:

答案 0 :(得分:0)

  • 获取文档的xml文件。

  • 开始迭代xml中的行元素。

  • 将内容添加到列表中。
  • 将列表转换为DataTable。
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
    foreach(XmlNode Xr in xn.ChildNodes)
    {
        if(Xr.Name ="row")
        {
            string rowvalue = xr.InnerText;
            youlist.Add(rowvalue);
        }
    }
}