我正在尝试使用R制表包从PDF中提取表格。这些函数可以正常工作,但是无法从整个表中获取所有数据。
下面是我的代码
library(tabulizer)
library(tidyverse)
library(abjutils)
D_path = "https://github.com/financebr/files/raw/master/Compacto09-08-2019.pdf"
out <- extract_tables(D_path,encoding = 'UTF-8')
arrumar_nomes <- function(x) {
x %>%
tolower() %>%
str_trim() %>%
str_replace_all('[[:space:]]+', '_') %>%
str_replace_all('%', 'p') %>%
str_replace_all('r\\$', '') %>%
abjutils::rm_accent()
}
tab_tidy <- out %>%
map(as_tibble) %>%
bind_rows() %>%
set_names(arrumar_nomes(.[1,])) %>%
slice(-1) %>%
mutate_all(funs(str_replace_all(., '[[:space:]]+', ' '))) %>%
mutate_all(str_trim)
将PDF表(D_path
)与tab_tidy
数据库进行比较,您会发现缺少一些信息。在extract_tables()
期间找不到所有合并的第一列。同样,该函数也找不到包含“ Boi Gordo”和“ Boi Magro”信息的所有行。
其余部分状况良好。您知道为什么以及如何解决吗?论坛中关于此的问题没有太多答案。