Rvest:获取节点文本而不是它的孩子的文本

时间:2016-09-15 08:22:49

标签: r web-scraping rvest

方法html_text()(来自R Package rvest)连接节点的文本和所有子节点。我想提取仅父亲的文字

以下示例中,html_text()提供 HELLO GOODBYE

我想要 GOODBYE 。我怎么能得到它?

<div class="joke">
  <div class="div_inside">
    <div class="title_inside">
      <a class="link" href="sompage.htm">HELLO</a>
    </div>
  </div>
  GOODBYE
</div>

1 个答案:

答案 0 :(得分:4)

尝试使用div&#34;笑话&#34;抓取主class标记。没有拿起孩子,使用xpath:

library(rvest)

read_html('your_html_script') %>%
    html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>% 
    html_text()

谢谢!