Question

我解析了3个文档以获取表。结果如下：

文档1：完美解析。
文档2：2019年7月16日下午5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告：为Univers-Bold使用后备字体NimbusSanL-Bold 不确定是否相关，但是第二页已解析，而第一页没有解析。
文档3：2019年7月17日上午10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告：Univers使用回退字体NimbusSanL-Regu。一切都没有解析。

这些是当前的表格解析设置：

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

还有其他设置可以解决此特定问题。

Answer 1

警告来自tabBox-java依赖的PDFBox。不幸的是，问题本身来自PDF本身，而无法通过tabula-py解决。

Tabula字体警告导致无法从文档中解析表。这是应该如何工作的吗？

1 个答案: