谷歌搜索"智能工厂"并抓取大量页面。 谷歌的来源正在开始(0-90)而不是起始页面(1-10),但是第一页没有读取每个页面的内容并重复输出。
我的代码:
library(rvest)
library(KoNLP)
title <- lapply(paste0('https://www.google.co.kr/search?q=smart+factory&ei=MNEnWZfgJoPw0AS7-aYY&sa=N&biw=1011&bih=677&bav=on.2,or.r_cp.#safe=active&q=smartfactory&start=', 0:90),
function(url){
url %>% read_html() %>%
html_nodes(".r") %>%
html_text()
})
title
此外,在韩语输出时,语言被破坏并输出。
为什么会这样?