Question

我一直在使用R进行某些Web抓取，我的程序最初可以正常运行，但此后一直停止。以下是我当前用于尝试对给定搜索出现在google搜索引擎中的搜索结果的网址进行抓取的代码，返回的错误为character（0）。该代码可完美地在其他网站上使用，我是否丢失了某些内容或Google阻止了我？

getWebsite <- function(name)
    {
      url = URLencode(paste0("https://www.google.com/search?q=",name))

      page <- html(url)

      results <- page %>% 
        html_nodes("cite") %>%
        html_text()

       return(as.character(result))
    }

dataset$GoogleURL = sapply(dataset$SearchField,getWebsite)

dataset$SearchField只是一个包含一些我希望遍历的搜索项的数据集。例如，如果搜索项为“ r cran”，则我希望该函数在此示例中以“ {https://cran.r-project.org/”的形式返回Google搜索URL

感谢您的帮助。

顶级Google搜索的网络抓取网址

0 个答案: