Tabula字体警告导致无法从文档中解析表。这是应该如何工作的吗?

时间:2019-07-17 14:35:02

标签: tabula-py

我解析了3个文档以获取表。结果如下:

  1. 文档1:完美解析。
  2. 文档2:2019年7月16日下午5:25:42 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:为Univers-Bold使用后备字体NimbusSanL-Bold 不确定是否相关,但是第二页已解析,而第一页没有解析。
  3. 文档3:2019年7月17日上午10:21:25 org.apache.pdfbox.pdmodel.font.PDType1Font 警告:Univers使用回退字体NimbusSanL-Regu。一切都没有解析。

这些是当前的表格解析设置:

     rows = tabula.read_pdf(filename,
                       pages='all',
                       silent=True,
                       pandas_options={
                           'header': None,
                           'error_bad_lines': False,
                           'warn_bad_lines': False
                       })

还有其他设置可以解决此特定问题。

1 个答案:

答案 0 :(得分:0)

警告来自tabBox-java依赖的PDFBox。不幸的是,问题本身来自PDF本身,而无法通过tabula-py解决。