我目前正在R中使用pdf文件。具体地说,我需要收集与pdf文件文本中嵌入的超链接有关的信息。到目前为止,我所做的是使用pdftools
包解析pdf文件。但是,它仅呈现文本,而不呈现基础超链接。在下面,您可以找到带有两个嵌入式超链接(单词“ sentencia”和“ aqui”)的pdf文件的示例以及我使用的代码。
library(dplyr)
txt <- pdftools::pdf_text(pdf = "http://www.corteidh.or.cr/docs/comunicados/cp_47_17.pdf") %>%
paste(., collapse = "") %>%
stringr::str_replace_all("[[:cntrl:]]", " ")
我也尝试过:
pdftools::pdf_attachments()
这给我一个空列表pdftools::pdf_info()
也没有成功。我可以手工完成,但是语料库很大,所以在朝这个方向发展之前,有谁知道我可以使用此包或其他方法识别并提取pdf文件中的嵌入式超链接吗?
非常感谢!