Question

我想使用主URL从子门户中提取网页内容。

我尝试使用Rcrawler

library(Rcrawler)

Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

运行此代码后，我得到了INDEX默认变量，我们可以看到网站的所有URL。有一个网址＆＃34;＆＃34; http://xbyte-technolabs.com/contact_us.php＆＃34;我想从中提取联系方式。

现在有人可以指导我如何从主网址转到此特定网址＆＃34;＆＃34; http://xbyte-technolabs.com/＆＃34;在R中使用Rcrawler

Answer 1

library(Rcrawler)

Rcrawler("http://www.xbyte-technolabs.com/",no_cores = 4,no_conn = 4)

for (i in length(INDEX)) {
  for (j in nrow(INDEX)) {

    Rcrawler(Website = INDEX[[i]][j], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))

  }

}
#Rcrawler(Website = INDEX[[i]][23], no_cores = 4, no_conn = 4, ExtractCSSPat = c(".address"))
class(DATA)
head(DATA)

ad <- DATA[[1]]
ad <- as.character(ad)
cat(ad)

抱歉，我觉得这段代码有问题任何人都会得到以下错误：

strsplit错误（gsub（＆＃34; http://|https://|www\。＆＃34;，＆＃34;＆＃34;，网站），＆＃34; /＆＃34;）[[c（ 1，：下标超出范围

Answer 2

library(Rcrawler)
Rcrawler(Website = "http://www.xbyte-technolabs.com/", no_cores = 1, no_conn = 1, ExtractCSSPat = c(".address"))

pageid <- as.numeric(INDEX$Id[INDEX$Url == 'http://xbyte-technolabs.com/contact_us.php'])
DATA[pageid]

根据?Rcrawler，Rcrawler创建了两个全局变量

INDEX：全球环境中代表的数据框架    通用URL索引，包括获取的URL和页面列表    详细信息（contenttype，HTTP状态，out-links和in-links的数量，    编码类型和级别）和



DATA：全球环境控股中的列表清单    内容。

INDEX中的Id变量对应于DATA中的list元素。上面的代码段会查找与您感兴趣的网址相对应的ID。

旁注：既然您知道要查找的网址，那么浏览整个网站就像是一种矫枉过正。

如何在R中使用Rcrawler从subdomian中提取信息？

2 个答案: