无法使用selenium webdriver从网页读取文本

时间:2018-06-09 07:16:41

标签: java selenium webdriver

我无法从以下网页上阅读电子邮件ID:

网址:https://targetstudy.com/university/2/acharya-ng-ranga-agricultural-university/

这是我的代码

driver.navigate().to(URL);
String Email = driver.findElement(By.xpath("//*[@id="site-canvas"]/div[6]/div[2]/div[1]/div/div[1]/div/table/tbody/tr/td[2]/table/tbody/tr[4]/td[2]/img")).getText();
System.out.println(Email);

1 个答案:

答案 0 :(得分:0)

在这种情况下,单独使用Selenium无法帮助您,尽管您的绑定语言会对您有所帮助。

您需要Java Tesseract API。

用于提取文字的

代码

 public String getImgText(String imageLocation) {
      ITesseract instance = new Tesseract();
      try 
      {
         String imgText = instance.doOCR(new File(imageLocation));
         return imgText;
      } 
      catch (TesseractException e) 
      {
         e.getMessage();
         return "Error while reading image";
      }
   }

如果您正在为项目使用maven,只需添加此依赖项:

<dependency> 
 <groupId>net.sourceforge.tess4j</groupId> 
 <artifactId>tess4j</artifactId> 
 <version>3.2.1</version> 
</dependency>   

更多参考:Extracting text from Image