我有以下html摘录:
<div class="price">
<span class="float-right"><strong>1900</strong> USD</span>
</div>
我想将金额和货币作为两个单独的变量检索。
对于金额,下面的代码可以毫无问题地获取它:
price <- rentalagency_html %>%
rvest::html_nodes(css="div.price > span.float-right > strong") %>%
rvest::html_text(trim=TRUE)
price
对于货币,我如何只获得没有金额的“美元”?基本上,我想排除标签。
答案 0 :(得分:0)
如果您阅读了整个“ span”节点,然后可以将结果文本按空格分成两部分?
x <- '<div class="price">
<span class="float-right"><strong>1900</strong> USD</span>
</div>'
x %>%
read_html() %>%
html_nodes(css='div.price > span') %>%
html_text(trim=TRUE) %>%
strsplit(' ')
[[1]]
[1] "1900" "USD"