顶级Google搜索的网络抓取网址

时间:2020-03-17 08:23:47

标签: r web-scraping

我一直在使用R进行某些Web抓取,我的程序最初可以正常运行,但此后一直停止。以下是我当前用于尝试对给定搜索出现在google搜索引擎中的搜索结果的网址进行抓取的代码,返回的错误为character(0)。该代码可完美地在其他网站上使用,我是否丢失了某些内容或Google阻止了我?

getWebsite <- function(name)
    {
      url = URLencode(paste0("https://www.google.com/search?q=",name))

      page <- html(url)

      results <- page %>% 
        html_nodes("cite") %>%
        html_text()

       return(as.character(result))
    }

dataset$GoogleURL = sapply(dataset$SearchField,getWebsite)

dataset$SearchField只是一个包含一些我希望遍历的搜索项的数据集。例如,如果搜索项为“ r cran”,则我希望该函数在此示例中以“ {https://cran.r-project.org/”的形式返回Google搜索URL

感谢您的帮助。

0 个答案:

没有答案