如何使用AWS Textract Service和.net从文档中导出CSV中的表格(PDF / Image)

时间:2019-09-03 07:18:57

标签: .net amazon-web-services amazon-textract

我正尝试使用C#/。NET从AWS textract服务使用DetectDocument(异步)从PDF文件提取表和数据。

我在数据提取方面很成功,但无法弄清楚如何使用AnalyzeDocument提取PDF中的表并导出为CSV文件。

阅读AWS文档,并发现在Python中而不是.NET中的CSV提取。 请参阅链接:-https://docs.aws.amazon.com/textract/latest/dg/examples-export-table-csv.html

尝试查看Python代码并为.NET复制,但未成功。

1 个答案:

答案 0 :(得分:0)

我们可以使用这段代码,遍历textract的GetDocumentTextAnalysis()返回的块中的关系,并获取与其链接的所有子节点。

var relationships = block.Relationships;
    if(relationships != null && relationships.Count > 0) {
        relationships.ForEach(r => {
            if(r.Type == "CHILD") {
                r.Ids.ForEach(id => {
                    var cell = new Cell(blocks.Find(b => b.Id == id), blocks);
                    if(cell.RowIndex > ri) {
                        this.Rows.Add(row);
                        row = new Row();
                        ri = cell.RowIndex;
                    }
                    row.Cells.Add(cell);
                });
                if(row != null && row.Cells.Count > 0)
                    this.Rows.Add(row);
            }
        });
    }

作为参考-请参考底部的链接以获取代码:-

https://github.com/aws-samples/amazon-textract-code-samples/blob/master/src-csharp/TextractExtensions/Table.cs