从pdf提取具有不同格式的表格

时间:2019-08-05 10:19:32

标签: r pdf

我正在尝试从此pdf中提取表格

https://www.iima.ac.in/c/document_library/get_file?uuid=ae2019ae-6e67-4ad8-964b-93c464f2223b&groupId=62390&filename=PMFBY%20(Part-I)%202018%20-%20Final%20Report%20-%20sent%20to%20MoA

我在本地计算机上下载了pdf。假设我要提取第42页中的表。格式与常规表略有不同,因此我遇到了问题

library(tabulizer)
library(dplyr)

location <- 'C:/my_data.pdf'
out <- tabulizer::extract_tables(location, pages = 42, 
                                   method = 'decide')

head(out)      

由于表中的每一行都分为两行,因此标题都被弄乱了。我对每一行括号中的数字都不感兴趣 因此可以丢弃它们

理想情况下,我希望第42页具有以下标题:

Season: two categories either Kharif_2017 or Rabi_2017/18
State/Union_Territory
Farmers_Enrolled 
Area_Insured 
Sum_Insured

0 个答案:

没有答案