PhantomJS通过Selenium访问没有TLD的内部服务器

时间:2015-02-12 20:45:01

标签: r selenium phantomjs

我正在我公司的内部网络浏览器上工作,从Sharepoint列表中提取名称和ID。我们假设这是我可以访问信息的唯一方法。从R开始,我使用RSelenium来控制phantomJS(我已成功连接到外部服务器并提取数据,所以我知道它一般都在工作)。当我导航到网站http://teams4/AllItems.aspx时,幻像决定提供帮助,并将网址更改为teams4.com。现在,我在大企业代理之前使用cntlm作为本地身份验证代理(它允许Python和R连接到Internet) - 没有它我根本无法访问互联网。我尝试直接连接公司有没有办法强制幻影以它给出的方式解析名称?

library(RSelenium)
library(rvest)
library(magrittr)

beautifulSoup = function(source){
  s = source %>% 
    extract2(1) %>% 
    html()
  return(s)
}

pJS = phantom(pjs_cmd="C:/phantomjs2/bin/phantomjs.exe",extras="--proxy=localhost:3128")
remDr = remoteDriver(browserName = 'phantomjs')
remDr$open()

output = data.frame(Name="test",ID=0)

remDr$navigate('http://teams4/AllItems.aspx')
soup = beautifulSoup(remDr$getPageSource())
allRequestors = soup %>%
  html_nodes(xpath='//td[contains(@class,"ms-vb-user")]')

0 个答案:

没有答案