我想从网页中提取值,但对于某些xml结构,我似乎得到了聚合值。
-Dyarn.application.classpath
如果我提取文字,我会得到:
data
{xml_nodeset (1)}
[1] <span class="match">tusinde<span class="super">1</span></span>
我想要的是:
data %>% html_text()
tusinde1
答案 0 :(得分:1)
如果没有关于一般问题的更多背景知识和可重复的示例,很难找到超出您提供的特定示例的解决方案。
例如,以下代码解决了您的问题,但我不知道除了特定情况之外的概括有多好。
data <- "<span class=\"match\">tusinde<span class=\"super\">1</span></span>"
out <- data %>% read_xml() %>% xml_contents()
as.character(out[1])
给你:
[1] "tusinde"