硒PDF解析器

时间:2018-09-09 19:12:20

标签: selenium-webdriver pdfbox

在我的应用程序中,我将进入一个页面,在那里会有一个文本,我必须在同一页面中打开一个PDF并比较PDF中的文本和主页匹配项。 我正在使用pdfbox -1.8.15

但是当我运行以下代码时,遇到此异常:

  

线程“ main”中的异常java.io.IOException:      错误:文件结尾,预期行在          org.apache.pdfbox.pdfparser.BaseParser.readLine(BaseParser.java:1523)在          org.apache.pdfbox.pdfparser.PDFParser.parseHeader(PDFParser.java:372)在          org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:186)在          TestCases.lastpdf.main(lastpdf.java:83)

driver.findElement(By.xpath("//*[@id=\"ctl00_cph_main_rg_QiSummaries_ctl00__0\"]/td[2]/img")).click();

driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);

String winHandleBefore = driver.getWindowHandle();
for(String winHandle : driver.getWindowHandles()){
    //Switch to child window
    driver.switchTo().window(winHandle);
}
driver.manage().timeouts().implicitlyWait(20, TimeUnit.SECONDS);
URL url = new URL(driver.getCurrentUrl());
System.out.println(url);

driver.manage().timeouts().implicitlyWait(20, TimeUnit.SECONDS);

String mypdftxt;
BufferedInputStream fileToParse = new BufferedInputStream(url.openStream()); 

driver.manage().timeouts().implicitlyWait(20, TimeUnit.SECONDS);
PDFParser parser = new PDFParser(fileToParse);
parser.parse(); // exception occurs here

mypdftxt  = new PDFTextStripper().getText(parser.getPDDocument());

System.out.println(mypdftxt);

0 个答案:

没有答案