我正在使用Amazon Textract从扫描的文档中提取数据。现在,我想将输出转换为PDF文件。下面是Textract的示例输出:
[1] => Array
(
[BlockType] => LINE
[Confidence] => 99.4744720459
[Text] => Hello
[Geometry] => Array
(
[BoundingBox] => Array
(
[Width] => 0.243866533041
[Height] => 0.0134594505653
[Left] => 0.176409825683
[Top] => 0.0463116429746
)
[Polygon] => Array
(
[0] => Array
(
[X] => 0.176409825683
[Y] => 0.0463116429746
)
[1] => Array
(
[X] => 0.420276373625
[Y] => 0.0463116429746
)
[2] => Array
(
[X] => 0.420276373625
[Y] => 0.0597710944712
)
[3] => Array
(
[X] => 0.176409825683
[Y] => 0.0597710944712
)
)
)
[Id] => 75e8917d-701e-4e26-bade-f00bde9d87db
[Relationships] => Array
(
[0] => Array
(
[Type] => CHILD
[Ids] => Array
(
[0] => 46f44500-4960-4405-99f3-fa43101bc2ca
)
)
)
)
如您所见,输出包含文本,高度,宽度及其XY坐标。如何将具有相同坐标的文本放入PDF文件?
答案 0 :(得分:0)
假设您可以将以上内容转换为JSON,则可以使用jsPDF或PDFkit创建PDF。根据您发布的有限数据,该功能可以很好地映射,但是我还没有看到Textract的完整结构,因为它仍处于Beta中,并且没有收到该程序的邀请。这两个项目都可以使用Node创建服务器端解决方案,但是它们也可以在浏览器中工作。
在撰写本文时,Google Cloud在其Vision - Document Text Detection功能中具有OCR组件。与Textract不同,它的工作原理是仅报告文档具有的视觉元素,并创建描述其“所见”内容的全面(大)数据结构。根据Amazon的说法,Textract使用机器学习以一种更易于理解的形式组织数据,力图将表单与构成表单填充部分的数据区分开。如果您要创建相对完整的PDF,则非常适合使用Google产品。 Textract可能也是,但我还不知道。
答案 1 :(得分:0)