使用 R 谷歌搜索进行网页抓取

时间:2021-03-15 10:59:17

标签: r web-scraping google-search

我正在寻找一种在谷歌搜索中使用 R 进行网络抓取的方法。考虑到困难(cookies 和不稳定的标签),我想分享一些关于如何在谷歌搜索中使用 R 进行网络抓取的想法。

这里有一个例子。我选择谷歌“法拉利”并尝试为所有谷歌搜索页面检索h3。我特别想得到每个 h3 链接。

但是,我只能检索 h3 标签和其他一些内容。

url = 'https://www.google.com/search?q=ferrari'

first_page <- read_html(url)

h3 <- first_page %>%   
  html_nodes("a h3")

h3_links <- first_page %>%   
  html_nodes("a h3") %>% html_attr("href")


basic <- first_page %>%   
  html_nodes("span span")

paragraphs <- first_page %>%   
  html_nodes("div div")

因此,我只想问问是否有人知道如何在 google 搜索中尽可能多地进行网页抓取。这可能有助于找到在 google 上进行网络抓取和讨论 google 跟踪方式的正确方法。

0 个答案:

没有答案