是否有任何有效的算法/技术可用于从基于图像的文档中提取表格。我们还具有XML格式的Abbyy OCR输出,该输出具有文档中文本的坐标信息。我们需要解决2个主要问题:
答案 0 :(得分:0)
获取文档的xml文件。
开始迭代xml中的行元素。
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
foreach(XmlNode Xr in xn.ChildNodes)
{
if(Xr.Name ="row")
{
string rowvalue = xr.InnerText;
youlist.Add(rowvalue);
}
}
}