从R中的PDF读取表格

时间:2018-07-20 21:32:08

标签: r pdf

我有一个包含很多表的PDF,我正在尝试使用R将它们解析为更易读的格式。到目前为止,我已经尝试了两种方法:

  1. 使用pdftools::pdftext()来获取文本,然后基本上使用正则表达式手动读取表中的内容(坦白地说,听起来还不错)
  2. 使用tabulizer::extract_tables(),它以某种神奇的方式为我完成了所有工作(虽然有点慢,但可以忍受)

这两种方法都出乎意料的好,但是仍然存在一些与弄乱列/对齐有关的问题-有时合并列,有时将标题与数据列对齐,等等。我愿意用蛮力纠缠数据,但是在尝试之前,我只想看看是否有更聪明的方法可以做到这一点。

那么,有没有更好的方法可以从PDF中读取表格?

0 个答案:

没有答案