我正在我公司的内部网络浏览器上工作,从Sharepoint列表中提取名称和ID。我们假设这是我可以访问信息的唯一方法。从R开始,我使用RSelenium来控制phantomJS(我已成功连接到外部服务器并提取数据,所以我知道它一般都在工作)。当我导航到网站http://teams4/AllItems.aspx
时,幻像决定提供帮助,并将网址更改为teams4.com
。现在,我在大企业代理之前使用cntlm作为本地身份验证代理(它允许Python和R连接到Internet) - 没有它我根本无法访问互联网。我尝试直接连接公司有没有办法强制幻影以它给出的方式解析名称?
library(RSelenium)
library(rvest)
library(magrittr)
beautifulSoup = function(source){
s = source %>%
extract2(1) %>%
html()
return(s)
}
pJS = phantom(pjs_cmd="C:/phantomjs2/bin/phantomjs.exe",extras="--proxy=localhost:3128")
remDr = remoteDriver(browserName = 'phantomjs')
remDr$open()
output = data.frame(Name="test",ID=0)
remDr$navigate('http://teams4/AllItems.aspx')
soup = beautifulSoup(remDr$getPageSource())
allRequestors = soup %>%
html_nodes(xpath='//td[contains(@class,"ms-vb-user")]')