如何从rvest报废中排除标签

时间:2019-10-30 10:13:26

标签: r rvest

我有以下html摘录:

<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>

我想将金额和货币作为两个单独的变量检索。

对于金额,下面的代码可以毫无问题地获取它:

price <- rentalagency_html %>%
  rvest::html_nodes(css="div.price > span.float-right > strong") %>%
  rvest::html_text(trim=TRUE)
price

对于货币,我如何只获得没有金额的“美元”?基本上,我想排除标签。

1 个答案:

答案 0 :(得分:0)

如果您阅读了整个“ span”节点,然后可以将结果文本按空格分成两部分?

x <- '<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>'

x %>% 
  read_html() %>% 
  html_nodes(css='div.price > span') %>% 
  html_text(trim=TRUE) %>% 
  strsplit(' ')
[[1]]
[1] "1900" "USD"