Question

我正在开发一种自动化工具，用于测试内部应用程序的GUI。自动化工具基于Rselenium。我正在尝试对拼写进行断言检查，为此，我想从html源中提取文本。

我想在下面的html源代码中提取part1。

我们将不胜感激。

HTML source code:

<html class>
<head>
<body>
<div id="header">
<h1 style>part1</h1>
<h4 style>part2</h4>
</div>
</body>
</html>

我使用的硒代码：

x <- remDr$findElement("id","header")
z <- x$getElementText()[[1]]
get("z")

预期结果------>第1部分

实际结果--------> part1 \ npart2

Answer 1

您可以使用

提取html页面

wp <- remDr$getPageSource()

然后使用rvest选择有问题的节点

rvest::html_text(rvest::html_nodes(wp, 'h1'))

这是一个完整的例子

# the html provided
html <- '<html class>
<head>
<body>
<div id="header">
<h1 style>part1</h1>
<h4 style>part2</h4>
</div>
</body>
</html> '

# read it as html
wp <- xml2::read_html(html)

# extract the data
rvest::html_text(rvest::html_nodes(wp, 'h1'))
# [1] "part1"

Answer 2

x <- remDr$findElement("xpath",'//*[@id="part1"]/h1')
z <- x$getElementText()
get("z")

为您提供预期的结果：第1部分

使用getElementText-Rselenium

2 个答案: