Web抓取:使用RVEST在R中提取文本

时间:2015-11-20 17:14:31

标签: r web-scraping rvest

我使用R做大学工作,我如何提取信息" | 20 de Novembro de 2015 "使用RVEST包?我试图获得课程" widget-info"但带来了一个小部件作者"班级也

<div class="home-list-content">
            <span class="widget-info">
                <span class="widget-author">
                    Rúben Campanacho
                </span> 
                | 20 de Novembro de 2015
            </span>
            <h2>
                LG Pay é o sistema de pagamentos móveis da LG
            </h2>
        </div>

我的代码:

pagina <- read_html("http://www.tecnologia.com.pt")
    data <- pagina %>% 
      html_nodes(".widget-info") %>%
      html_text() %>%
      as.data.frame()

结果:

Rúben Campanacho | 20 de Novembro de 2015

我想要 | 20 de Novembro de 2015

1 个答案:

答案 0 :(得分:1)

txt <- 'Rúben Campanacho | 20 de Novembro de 2015'

gsub('^((\\w+)[[:space:]]){2}', '', txt)

返回:

"| 20 de Novembro de 2015"