在MarkLogic中将可填充的PDF转换为XML

时间:2019-03-05 22:46:58

标签: marklogic marklogic-9 pdf-conversion mlcp

我已经使用MLCP将一些PDF文件加载到MarkLogic中,然后通过CPF默认PDF转换将其转换为XML。一些PDF是可填充的,但转换后不包含所有填充的内容。有办法转换吗?

1 个答案:

答案 0 :(得分:0)

这些PDF表单是否已由用户填写?如果是这样,则某些转换器不会携带PDF表单数据。 PDFTables可能有效-API使您可以将PDF转换为XML,包括任何表单数据。

以Python为例(可以使用任何语言):

import pdftables_api

c = pdftables_api.Client('my-api-key')

c.xml('input.pdf', 'output.xml')