方法html_text()
(来自R Package rvest)连接节点的文本和所有子节点。我想提取仅父亲的文字。
以下示例中,html_text()
提供 HELLO GOODBYE 。
我想要 GOODBYE 。我怎么能得到它?
<div class="joke">
<div class="div_inside">
<div class="title_inside">
<a class="link" href="sompage.htm">HELLO</a>
</div>
</div>
GOODBYE
</div>
答案 0 :(得分:4)
尝试使用div
&#34;笑话&#34;抓取主class
标记。没有拿起孩子,使用xpath:
library(rvest)
read_html('your_html_script') %>%
html_nodes(xpath = '//div[@class="joke"]/node()[not(self::div)]') %>%
html_text()
谢谢!