无法下载网页的完整源代码

时间:2018-03-13 21:05:21

标签: html r selenium url rcurl

我正在尝试在以下网页中获取超链接列表

http://www.oabmg.org.br/examedeordem/home/index

当我检查Chrome中的源代码时,我可以找到这些链接,这些链接是pdf文件(我只是做CTRL+F pdf并找到它们),例如:http://www.oabmg.org.br/areas/examedeordem/doc//2017.2%20(XXII%20EOU).pdf

但是,无论如何,我尝试在R中获取源代码,以获取所有pdf链接地址,我从来没有得到完整的源代码。

我已尝试rvestRCurl(切换对等验证)和selenium,但没有一个获得整个代码。

每次我获取HTML代码(使用read_htmlgetURLgetPageSource())并尝试查找字符串的任何实例' pdf'我一无所获。

library(rvest)
library(stringr)
unlist(str_extract_all(getURL('http://www.oabmg.org.br/examedeordem/home/index'), 'pdf'))

character(0)

任何人都知道我能做些什么来获取整个代码?

0 个答案:

没有答案