Question

我正在使用Amazon Textract从扫描的文档中提取数据。现在，我想将输出转换为PDF文件。下面是Textract的示例输出：

[1] => Array
                    (
                        [BlockType] => LINE
                        [Confidence] => 99.4744720459
                        [Text] => Hello
                        [Geometry] => Array
                            (
                                [BoundingBox] => Array
                                    (
                                        [Width] => 0.243866533041
                                        [Height] => 0.0134594505653
                                        [Left] => 0.176409825683
                                        [Top] => 0.0463116429746
                                    )

                                [Polygon] => Array
                                    (
                                        [0] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0463116429746
                                            )

                                        [1] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0463116429746
                                            )

                                        [2] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0597710944712
                                            )

                                        [3] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0597710944712
                                            )

                                    )

                            )

                        [Id] => 75e8917d-701e-4e26-bade-f00bde9d87db
                        [Relationships] => Array
                            (
                                [0] => Array
                                    (
                                        [Type] => CHILD
                                        [Ids] => Array
                                            (
                                                [0] => 46f44500-4960-4405-99f3-fa43101bc2ca
                                            )

                                    )

                            )

                    )

如您所见，输出包含文本，高度，宽度及其XY坐标。如何将具有相同坐标的文本放入PDF文件？

Answer 1

假设您可以将以上内容转换为JSON，则可以使用jsPDF或PDFkit创建PDF。根据您发布的有限数据，该功能可以很好地映射，但是我还没有看到Textract的完整结构，因为它仍处于Beta中，并且没有收到该程序的邀请。这两个项目都可以使用Node创建服务器端解决方案，但是它们也可以在浏览器中工作。

在撰写本文时，Google Cloud在其Vision - Document Text Detection功能中具有OCR组件。与Textract不同，它的工作原理是仅报告文档具有的视觉元素，并创建描述其“所见”内容的全面（大）数据结构。根据Amazon的说法，Textract使用机器学习以一种更易于理解的形式组织数据，力图将表单与构成表单填充部分的数据区分开。如果您要创建相对完整的PDF，则非常适合使用Google产品。 Textract可能也是，但我还不知道。

Answer 2

This 存储库包含代码示例（Java），展示了如何使用 AWS Textract 生成可搜索的 PDF。如果您不使用 Java，您也可以将其部署为 AWS Lambda 函数，然后通过 AWS 开发工具包或作为使用 AWS API Gateway 的 REST API 调用来调用它。

还有相应的博客文章 here。

如何从Amazon Textract输出生成PDF文件？

2 个答案: