Question

我想：

获取创建列表中每个元素的第2页中的某些数据（pdfs文件）
第2页的数据（针对债券期货 CGB ......第2栏，第11栏和第16栏）
创建聚合所有这些数据的数据框

年|月|度量

2013年1月月度卷

2013年1月月末未平仓合约

2013年1月交易

我尝试过以下但未达到目标 - 我的道歉。

library(rvest)
library(pdftools)
library(tidyverse)

filepath <- "~R Working Directory/CanadianFutures" 

files <- list.files(path = filepath, pattern = '*.pdf')

变量文件包含列表：

[1]“1301_stats_en.pdf”“1302_stats_en.pdf”“1303_stats_en.pdf”“1304_stats_en.pdf”“1305_stats_en.pdf”“1306_stats_en.pdf” [7]“1307_stats_en.pdf”“1308_stats_en.pdf”“1309_stats_en.pdf”“1310_stats_en.pdf”“1311_stats_en.pdf”“1312_stats_en.pdf” [13]“1401_stats_en.pdf”“1402_stats_en.pdf”“1403_stats_en.pdf”“1404_stats_en.pdf”“1405_stats_en.pdf”“1406_stats_en.pdf”..... [61] “1801_stats_en.pdf”“1802_stats_en.pdf”“1803_stats_en.pdf”“1804_stats_en.pdf”“1805_stats_en.pdf”

我已尝试以下内容获取每个pdf的第2页但完全丢失了：

all <- lapply(files, function(x) {
    txt <- pdf_text(filenames)
    page_2 <- txt[2]
})

我得到以下内容：

normalizePath中的

错误（pdf，mustWork = TRUE）： path [1] =“1301_stats_en.pdf”：没有这样的文件或目录

我列表中的所有pdf都具有相同的一致格式。以下是pdf https://www.m-x.ca/f_stat_en/1401_stats_en.pdf

的示例

谢谢

Answer 1

确保您的工作目录与存储文件的位置相同：

getwd()

另一个选项是使您的文件列表显示为完整目录。

 files <- list.files(filepath, pattern = '*.pdf', full.names = T)
 >files
 [1] "Downloads/naamloze map//1401_stats_en-2.pdf"
 [2] "Downloads/naamloze map//1401_stats_en.pdf"  

 PDFreader <- function(x){
 t <- pdf_text (x)
 page_2 <- t
 }

 lapply(files, PDFreader)

返回

 [[1]]
 [1]..... text....

 [[2]]
 [1]..... text....

祝你好运

从pdf列表中获取某些值

1 个答案: