对于相同格式的PDF表格,R tabulizer包的矩阵维度列表会有所不同

时间:2018-06-10 20:41:07

标签: r pdf tabula

我在Mac上的R中使用Tabulizer 0.2.2 extract_tables以下pdf。

销售< - “http://www.greenwichct.org/upload/medialibrary/5cd/Residential-Sales-by-Address-10-10-to-10-15.pdf

test< - extract_tables(sales,pages = c(1:10),method =“decision”)

我相信每页上的表格是相同的,但是前十页的矩阵列表例如给出了具有3个不同维度的矩阵。列有时会连接在一起,例如在测试[[3]]中与第1列和第2列连接。

我尝试过设置区域,指定方法。我查看了如何指定列参数,但找不到任何具体的内容。甚至经历了extract_area(),但结果相同。使用Tabula app同样存在问题。

任何想法都赞赏。

0 个答案:

没有答案