我正在开发一种自动化工具,用于测试内部应用程序的GUI。自动化工具基于Rselenium。我正在尝试对拼写进行断言检查,为此,我想从html源中提取文本。
我想在下面的html源代码中提取part1。
我们将不胜感激。
HTML source code:
<html class>
<head>
<body>
<div id="header">
<h1 style>part1</h1>
<h4 style>part2</h4>
</div>
</body>
</html>
我使用的硒代码:
x <- remDr$findElement("id","header")
z <- x$getElementText()[[1]]
get("z")
预期结果------>第1部分
实际结果--------> part1 \ npart2
答案 0 :(得分:0)
您可以使用
提取html
页面
wp <- remDr$getPageSource()
然后使用rvest
选择有问题的节点
rvest::html_text(rvest::html_nodes(wp, 'h1'))
这是一个完整的例子
# the html provided
html <- '<html class>
<head>
<body>
<div id="header">
<h1 style>part1</h1>
<h4 style>part2</h4>
</div>
</body>
</html> '
# read it as html
wp <- xml2::read_html(html)
# extract the data
rvest::html_text(rvest::html_nodes(wp, 'h1'))
# [1] "part1"
答案 1 :(得分:0)
x <- remDr$findElement("xpath",'//*[@id="part1"]/h1')
z <- x$getElementText()
get("z")
为您提供预期的结果:第1部分