我想使用主URL从子门户中提取网页内容。
我尝试使用Rcrawler
library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
运行此代码后,我得到了INDEX默认变量,我们可以看到网站的所有URL。有一个网址"" http://xbyte-technolabs.com/contact_us.php"我想从中提取联系方式。
现在有人可以指导我如何从主网址转到此特定网址"" http://xbyte-technolabs.com/"在R中使用Rcrawler
答案 0 :(得分:0)
library(Rcrawler)
Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)
for (i in length(INDEX)) {
for (j in nrow(INDEX)) {
Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
}
}
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
class(DATA)
head(DATA)
ad <- DATA[[1]]
ad <- as.character(ad)
cat(ad)
抱歉,我觉得这段代码有问题 任何人都会得到以下错误:
strsplit错误(gsub(&#34; http://|https://|www\。&#34;,&#34;&#34;,网站),&#34; /&#34;)[[c( 1,: 下标超出范围
答案 1 :(得分:0)
library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))
pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
DATA[pageid]
根据?Rcrawler
,Rcrawler创建了两个全局变量
INDEX:全球环境中代表的数据框架 通用URL索引,包括获取的URL和页面列表 详细信息(contenttype,HTTP状态,out-links和in-links的数量, 编码类型和级别)和
DATA:全球环境控股中的列表清单 内容。
INDEX中的Id变量对应于DATA中的list元素。上面的代码段会查找与您感兴趣的网址相对应的ID。
旁注:既然您知道要查找的网址,那么浏览整个网站就像是一种矫枉过正。