在抓取Google页面时,第一页在输出中重复。我该怎么办?

时间:2017-05-26 08:01:45

标签: r

谷歌搜索"智能工厂"并抓取大量页面。 谷歌的来源正在开始(0-90)而不是起始页面(1-10),但是第一页没有读取每个页面的内容并重复输出。

我的代码:

library(rvest)
library(KoNLP)

title <- lapply(paste0('https://www.google.co.kr/search?q=smart+factory&ei=MNEnWZfgJoPw0AS7-aYY&sa=N&biw=1011&bih=677&bav=on.2,or.r_cp.#safe=active&q=smartfactory&start=', 0:90),
          function(url){

            url %>% read_html() %>% 
              html_nodes(".r") %>% 
              html_text()

          })

title

此外,在韩语输出时,语言被破坏并输出。

enter image description here

为什么会这样?

0 个答案:

没有答案