PDF格式的文档对话(例如,w2 / 1040 /等)作为键/值而不是基于字体信息的单个字符串

时间:2017-05-18 21:23:45

标签: ibm-watson document-conversion

尝试使用文档转换服务捕获pdf文档的json键/值对,例如(w2 / 1040 / etc表单)。

json响应中此类表单的内容将作为“内容”下“文本”的一部分。缺少表单数据,但主要是将表单标签呈现为单个字符串。

我想知道是否还有将pdf(w2 / 1040 / etc)的表单数据捕获为json中的键/值而不是单个字符串?

感谢。

1 个答案:

答案 0 :(得分:0)

遗憾的是,文档转换服务目前不支持PDF格式的表单。它最多可能会将某些表单识别为表格,但不会将其识别为键/值对。

如果它将表单识别为表格,您仍然需要进行一些非平凡的后处理,以将其映射到键/值对。