如何将pdf文档转换为xml并获取包含表数据的部分。

时间:2015-07-27 01:35:17

标签: xml pdf mupdf xpdf

pdf文档,我想将其转换为 xml html

由于pdf文档包含一些表格,当它转换为 xml html 时,我不知道哪个是表格数据,哪个是文本。

我想获取表数据来存储数据库。

xpdf mupdf 可以制作吗?

感谢。

2 个答案:

答案 0 :(得分:1)

PDF(通常)不包含有关文本的信息。文本是文本,没有信息可以识别表格中的文本。

因此,对于任何PDF阅读应用程序而言,不是可靠方式将文本识别为表格的一部分。所以MuPDF无法告诉你这个。

当然,您可以尝试自己应用启发式算法,在同一垂直偏移处的行中识别文本,并查找在常规x偏移处水平间隔的文本。

答案 1 :(得分:0)

您可以查看免费表格 https://tabula.technology/

“用于释放锁定在PDF文件中的数据表的工具”。

这是一个Web应用程序。 您可以在Linux或Windows盒子上安装tabula,然后在其他PC上使用它。