我有一个包含很多表的PDF,我正在尝试使用R将它们解析为更易读的格式。到目前为止,我已经尝试了两种方法:
pdftools::pdftext()
来获取文本,然后基本上使用正则表达式手动读取表中的内容(坦白地说,听起来还不错)tabulizer::extract_tables()
,它以某种神奇的方式为我完成了所有工作(虽然有点慢,但可以忍受)这两种方法都出乎意料的好,但是仍然存在一些与弄乱列/对齐有关的问题-有时合并列,有时将标题与数据列对齐,等等。我愿意用蛮力纠缠数据,但是在尝试之前,我只想看看是否有更聪明的方法可以做到这一点。
那么,有没有更好的方法可以从PDF中读取表格?