从pdf列表中获取某些值

时间:2018-06-17 17:01:42

标签: r pdf

我想:

  • 获取创建列表中每个元素的第2页中的某些数据(pdfs文件)
  • 第2页的数据(针对债券期货 CGB ......第2栏,第11栏和第16栏)
  • 创建聚合所有这些数据的数据框

年|月|度量

2013年1月月度卷

2013年1月月末未平仓合约

2013年1月交易

我尝试过以下但未达到目标 - 我的道歉。

library(rvest)
library(pdftools)
library(tidyverse)

filepath <- "~R Working Directory/CanadianFutures" 

files <- list.files(path = filepath, pattern = '*.pdf')

变量文件包含列表:

[1]“1301_stats_en.pdf”“1302_stats_en.pdf”“1303_stats_en.pdf”“1304_stats_en.pdf”“1305_stats_en.pdf”“1306_stats_en.pdf”  [7]“1307_stats_en.pdf”“1308_stats_en.pdf”“1309_stats_en.pdf”“1310_stats_en.pdf”“1311_stats_en.pdf”“1312_stats_en.pdf” [13]“1401_stats_en.pdf”“1402_stats_en.pdf”“1403_stats_en.pdf”“1404_stats_en.pdf”“1405_stats_en.pdf”“1406_stats_en.pdf”..... [61] “1801_stats_en.pdf”“1802_stats_en.pdf”“1803_stats_en.pdf”“1804_stats_en.pdf”“1805_stats_en.pdf”

我已尝试以下内容获取每个pdf的第2页但完全丢失了:

all <- lapply(files, function(x) {
    txt <- pdf_text(filenames)
    page_2 <- txt[2]
})

我得到以下内容:

normalizePath中的

错误(pdf,mustWork = TRUE):    path [1] =“1301_stats_en.pdf”:没有这样的文件或目录

我列表中的所有pdf都具有相同的一致格式。 以下是pdf https://www.m-x.ca/f_stat_en/1401_stats_en.pdf

的示例

谢谢

1 个答案:

答案 0 :(得分:0)

确保您的工作目录与存储文件的位置相同:

getwd()

另一个选项是使您的文件列表显示为完整目录。

 files <- list.files(filepath, pattern = '*.pdf', full.names = T)
 >files
 [1] "Downloads/naamloze map//1401_stats_en-2.pdf"
 [2] "Downloads/naamloze map//1401_stats_en.pdf"  

 PDFreader <- function(x){
 t <- pdf_text (x)
 page_2 <- t
 }

 lapply(files, PDFreader)

返回

 [[1]]
 [1]..... text....

 [[2]]
 [1]..... text....
祝你好运