我正在尝试从此pdf中提取表格
我在本地计算机上下载了pdf。假设我要提取第42页中的表。格式与常规表略有不同,因此我遇到了问题
library(tabulizer)
library(dplyr)
location <- 'C:/my_data.pdf'
out <- tabulizer::extract_tables(location, pages = 42,
method = 'decide')
head(out)
由于表中的每一行都分为两行,因此标题都被弄乱了。我对每一行括号中的数字都不感兴趣 因此可以丢弃它们
理想情况下,我希望第42页具有以下标题:
Season: two categories either Kharif_2017 or Rabi_2017/18
State/Union_Territory
Farmers_Enrolled
Area_Insured
Sum_Insured