PDF:表格提取-制表器(R)

时间:2019-08-12 17:40:54

标签: r pdf datatables extraction

我正在尝试使用R制表包从PDF中提取表格。这些函数可以正常工作,但是无法从整个表中获取所有数据。

下面是我的代码

library(tabulizer)
library(tidyverse)
library(abjutils)

D_path = "https://github.com/financebr/files/raw/master/Compacto09-08-2019.pdf"

out <- extract_tables(D_path,encoding = 'UTF-8')

arrumar_nomes <- function(x) {
  x %>% 
    tolower() %>% 
    str_trim() %>% 
    str_replace_all('[[:space:]]+', '_') %>% 
    str_replace_all('%', 'p') %>% 
    str_replace_all('r\\$', '') %>% 
    abjutils::rm_accent()
}

tab_tidy <- out %>%
  map(as_tibble) %>% 
  bind_rows() %>% 
  set_names(arrumar_nomes(.[1,])) %>%
  slice(-1) %>% 
  mutate_all(funs(str_replace_all(., '[[:space:]]+', ' '))) %>% 
  mutate_all(str_trim)

将PDF表(D_path)与tab_tidy数据库进行比较,您会发现缺少一些信息。在extract_tables()期间找不到所有合并的第一列。同样,该函数也找不到包含“ Boi Gordo”和“ Boi Magro”信息的所有行。

其余部分状况良好。您知道为什么以及如何解决吗?论坛中关于此的问题没有太多答案。

0 个答案:

没有答案