Question

我有以下html摘录：

<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>

我想将金额和货币作为两个单独的变量检索。

对于金额，下面的代码可以毫无问题地获取它：

price <- rentalagency_html %>%
  rvest::html_nodes(css="div.price > span.float-right > strong") %>%
  rvest::html_text(trim=TRUE)
price

对于货币，我如何只获得没有金额的“美元”？基本上，我想排除标签。

Answer 1

如果您阅读了整个“ span”节点，然后可以将结果文本按空格分成两部分？

x <- '<div class="price">
  <span class="float-right"><strong>1900</strong> USD</span>
</div>'

x %>% 
  read_html() %>% 
  html_nodes(css='div.price > span') %>% 
  html_text(trim=TRUE) %>% 
  strsplit(' ')
[[1]]
[1] "1900" "USD"

如何从rvest报废中排除标签

1 个答案: