我想:
年|月|度量
2013年1月月度卷
2013年1月月末未平仓合约
2013年1月交易
我尝试过以下但未达到目标 - 我的道歉。
library(rvest)
library(pdftools)
library(tidyverse)
filepath <- "~R Working Directory/CanadianFutures"
files <- list.files(path = filepath, pattern = '*.pdf')
变量文件包含列表:
[1]“1301_stats_en.pdf”“1302_stats_en.pdf”“1303_stats_en.pdf”“1304_stats_en.pdf”“1305_stats_en.pdf”“1306_stats_en.pdf” [7]“1307_stats_en.pdf”“1308_stats_en.pdf”“1309_stats_en.pdf”“1310_stats_en.pdf”“1311_stats_en.pdf”“1312_stats_en.pdf” [13]“1401_stats_en.pdf”“1402_stats_en.pdf”“1403_stats_en.pdf”“1404_stats_en.pdf”“1405_stats_en.pdf”“1406_stats_en.pdf”..... [61] “1801_stats_en.pdf”“1802_stats_en.pdf”“1803_stats_en.pdf”“1804_stats_en.pdf”“1805_stats_en.pdf”
我已尝试以下内容获取每个pdf的第2页但完全丢失了:
all <- lapply(files, function(x) {
txt <- pdf_text(filenames)
page_2 <- txt[2]
})
我得到以下内容:
normalizePath中的错误(pdf,mustWork = TRUE): path [1] =“1301_stats_en.pdf”:没有这样的文件或目录
我列表中的所有pdf都具有相同的一致格式。 以下是pdf https://www.m-x.ca/f_stat_en/1401_stats_en.pdf
的示例谢谢
答案 0 :(得分:0)
确保您的工作目录与存储文件的位置相同:
getwd()
另一个选项是使您的文件列表显示为完整目录。
files <- list.files(filepath, pattern = '*.pdf', full.names = T)
>files
[1] "Downloads/naamloze map//1401_stats_en-2.pdf"
[2] "Downloads/naamloze map//1401_stats_en.pdf"
PDFreader <- function(x){
t <- pdf_text (x)
page_2 <- t
}
lapply(files, PDFreader)
返回
[[1]]
[1]..... text....
[[2]]
[1]..... text....
祝你好运