我已经使用MLCP将一些PDF文件加载到MarkLogic中,然后通过CPF默认PDF转换将其转换为XML。一些PDF是可填充的,但转换后不包含所有填充的内容。有办法转换吗?
答案 0 :(得分:0)
这些PDF表单是否已由用户填写?如果是这样,则某些转换器不会携带PDF表单数据。 PDFTables可能有效-API使您可以将PDF转换为XML,包括任何表单数据。
以Python为例(可以使用任何语言):
import pdftables_api
c = pdftables_api.Client('my-api-key')
c.xml('input.pdf', 'output.xml')