提取驻留在html-body外部的文本

时间:2017-11-02 21:35:39

标签: selenium-webdriver

何我可以提取一些位于html体外的东西,并且没有使用selenium webdriver的任何标签 例如。我想从下面的页面源中提取Entity_ID。

<!DOCTYPE html ......">
<html xml:lang="en" lang="en" dir="ltr">
<head>
   </head>
   <body>
       <form....>
         ......
       </form>
   </body>
   <!--
     Host Name: ********.com
     Interaction ID: 111111111
     Iteration: 1
     Entity ID: 111111111111
     ApplicationID: 11111111111
     Image Location: **********
     Operating Environment: staging
     Page Name: **************
</html>

1 个答案:

答案 0 :(得分:0)

使用WebDriver#getPageSource()方法:

        driver.get("http://your.page.com")

        String pageSrc = driver.getPageSource();

        int idx = pageSrc.indexOf("Entity ID:" );
        if( idx>= 0) {
            System.out.println(pageSrc.substring(idx, pageSrc.indexOf("\n", idx)));
        }