rVest:如何提取值(忽略孩子)

时间:2017-07-04 09:46:52

标签: r xml parent-child rvest

我想从网页中提取值,但对于某些xml结构,我似乎得到了聚合值。

-Dyarn.application.classpath

如果我提取文字,我会得到:

data
{xml_nodeset (1)}
[1] <span class="match">tusinde<span class="super">1</span></span>

我想要的是:

data %>% html_text()
tusinde1

1 个答案:

答案 0 :(得分:1)

如果没有关于一般问题的更多背景知识和可重复的示例,很难找到超出您提供的特定示例的解决方案。

例如,以下代码解决了您的问题,但我不知道除了特定情况之外的概括有多好。

data <- "<span class=\"match\">tusinde<span class=\"super\">1</span></span>"

out <- data %>% read_xml() %>% xml_contents() 

as.character(out[1])

给你:

[1] "tusinde"