有 pdf文档,我想将其转换为 xml 或 html 。
由于pdf文档包含一些表格,当它转换为 xml 或 html 时,我不知道哪个是表格数据,哪个是文本。
我想获取表数据来存储数据库。
xpdf 或 mupdf 可以制作吗?
感谢。
答案 0 :(得分:1)
PDF(通常)不包含有关文本的信息。文本是文本,没有信息可以识别表格中的文本。
因此,对于任何PDF阅读应用程序而言,不是可靠方式将文本识别为表格的一部分。所以MuPDF无法告诉你这个。
当然,您可以尝试自己应用启发式算法,在同一垂直偏移处的行中识别文本,并查找在常规x偏移处水平间隔的文本。
答案 1 :(得分:0)
您可以查看免费表格 https://tabula.technology/
“用于释放锁定在PDF文件中的数据表的工具”。
这是一个Web应用程序。 您可以在Linux或Windows盒子上安装tabula,然后在其他PC上使用它。