我正在寻找一种在谷歌搜索中使用 R 进行网络抓取的方法。考虑到困难(cookies 和不稳定的标签),我想分享一些关于如何在谷歌搜索中使用 R 进行网络抓取的想法。
这里有一个例子。我选择谷歌“法拉利”并尝试为所有谷歌搜索页面检索h3。我特别想得到每个 h3 链接。
但是,我只能检索 h3 标签和其他一些内容。
url = 'https://www.google.com/search?q=ferrari'
first_page <- read_html(url)
h3 <- first_page %>%
html_nodes("a h3")
h3_links <- first_page %>%
html_nodes("a h3") %>% html_attr("href")
basic <- first_page %>%
html_nodes("span span")
paragraphs <- first_page %>%
html_nodes("div div")
因此,我只想问问是否有人知道如何在 google 搜索中尽可能多地进行网页抓取。这可能有助于找到在 google 上进行网络抓取和讨论 google 跟踪方式的正确方法。