ChromeDriver - 页面加载后打印到pdf文件

时间:2017-11-20 08:28:37

标签: selenium-webdriver selenium-chromedriver google-chrome-headless

根据the docs,Chrome可以使用--print-to-pdf以无头模式启动,以便导出网页的PDF。这适用于使用GET请求可访问的网页。

尝试找到一个print-to-pdf解决方案,允许我在Chrome中执行多个导航请求后导出PDF。示例:打开google.com,输入搜索查询,单击第一个结果链接,导出为PDF。

查看[非常有限的可用]文档和示例,在页面加载后,我找不到指示Chrome导出PDF的方法。我正在使用Java chrome-driver

一种不涉及Chrome的可能解决方案是使用wkhtmltopdf之类的工具。继续这条路径将迫使我 - 在将HTML发送到工具之前 - 执行以下操作:

  • 将HTML保存在本地文件中
  • 遍历DOM,并下载所有文件链接(图像,js,css等)

不喜欢这条路,因为我需要进行大量的修补[我认为]才能获得下载量。文件路径正确,wkhtmltopdf正确读取。

有没有办法指示Chrome打印到PDF,但只有在页面加载后?

4 个答案:

答案 0 :(得分:2)

由于没有答案,我将解释我的解决方法。我没有试图找到如何从Chrome请求打印当前页面,而是沿着另一条路走下去。

对于此示例,我们将尝试从查询“示例”中下载Google的结果页面:

  1. 使用driver.get("google.com")导航,输入查询'示例',点击'Google搜索'
  2. 等待结果页面加载
  3. 使用driver.getPageSource()
  4. 检索网页来源
  5. 解析来源,例如: Jsoup为了重新映射所有相对链接以指向为此目的定义的端点(如下所述) - 示例到localhost:8080。链接'./style.css'将成为'localhost:8080 / style.css'
  6. 将HTML保存到文件,例如命名为'query-example'
  7. 运行chrome --print-to-pdf localhost:8080/search?id=query-example
  8. 将会发生的事情是chrome将从我们的控制器请求HTML,并且对于我们返回的HTML中定义的资源,它将转到我们的控制器 - 因为我们重新映射了相对链接 - 这将反过来将该请求转发给真实的资源的位置 - google.com。下面是一个示例Spring控制器,请注意该示例不完整,仅作为指导。

    @RestController
    @RequestMapping
    public class InternationalOffloadRestController {
      @RequestMapping(method = RequestMethod.GET, value = "/search/html")
      public String getHtml(@RequestParam("id") String id) {
        File file = new File("location of the HTML file", id);
        try (FileInputStream input = new FileInputStream(file)) {
          return IOUtils.toString(input, HTML_ENCODING);
        }
      }
      @RequestMapping("/**") // forward all remapped links to google.com
      public void forward(HttpServletResponse httpServletResponse, ...) {
        URI uri = new URI("https", null, "google.com", -1, 
          request.getRequestURI(), request.getQueryString(), null);
        httpServletResponse.setHeader("Location", uri.toString());
        httpServletResponse.setStatus(HttpServletResponse.SC_MOVED_PERMANENTLY);
      }
    }
    

答案 1 :(得分:1)

从命令行执行此操作的示例对HTML和sed页面进行了一些修改:

LOGIN='myuserid'
PASSW='mypasswd'
AUTH='pin=$LOGIN&accessCode=$PASSW&Submit=Submit'
TIMESTAMP=`TZ=HST date -d "today" +"%m/%d/%y %I:%M %p HST"`
wget -q --save-cookies cookies.txt --keep-session-cookies \
    --post-data $AUTH \
    https://csea.ehawaii.gov/iwa/index.html
sed -i 's#href="/iwa/css#href="./bin#g' index.html
sed -i 's#src="/iwa/images#src="./bin#g' index.html
wkhtmltopdf -q --print-media-type \
            --header-left "$d" --header-font-size 10 \
            --header-line --header-spacing 10 \
            --footer-left "Page [page] of [toPage]" --footer-font-size 10 \
            --footer-line --footer-spacing 10 \
            --footer-right "$TIMESTAMP" \
            --margin-bottom 20 --margin-left 15 \
            --margin-top 20 --margin-right 15 \
            index.html index.pdf

假设有效的cookie,登录后可用的其他页面可以这样访问:

wget -q --load-cookies cookies.txt https://csea.ehawaii.gov/otherpage.html
wkhtmltopdf <all the options> otherpage.html otherpage.pdf

此外,我之前已将所有CSS和图像转储到本地bin目录中,如下所示:

wget -r -A.jpg -A.gif -A.css -nd -Pbin \
    https://csea.ehawaii.gov/iwa/index.html

答案 2 :(得分:0)

这确实可以通过ExecuteChromeCommandWithResult方法通过Selenium Chromedriver实现。当执行命令Page.printToPDF时,在结果字典的“数据”项中返回以base 64编码的PDF文档。

此答案中提供了一个C#示例,应该易于转换为Java:

https://stackoverflow.com/a/58698226/2416627

这是另一个C#示例,其中说明了一些有用的选项:

public static void Main(string[] args)
{
    var driverOptions = new ChromeOptions();
    // In headless mode, PDF writing is enabled by default (tested with driver major version 85)
    driverOptions.AddArgument("headless");
    using (var driver = new ChromeDriver(driverOptions))
    {
        driver.Navigate().GoToUrl("https://stackoverflow.com/questions");
        new WebDriverWait(driver, TimeSpan.FromSeconds(10)).Until(d => d.FindElements(By.CssSelector("#questions")).Count == 1);
        // Output a PDF of the first page in A4 size at 90% scale
        var printOptions = new Dictionary<string, object>
        {
            { "paperWidth", 210 / 25.4 },
            { "paperHeight", 297 / 25.4 },
            { "scale", 0.9 },
            { "pageRanges", "1" }
        };
        var printOutput = driver.ExecuteChromeCommandWithResult("Page.printToPDF", printOptions) as Dictionary<string, object>;
        var pdf = Convert.FromBase64String(printOutput["data"] as string);
        File.WriteAllBytes("stackoverflow-page-1.pdf", pdf);
    }
}

Page.printToPDF呼叫可用的选项记录在这里:

https://chromedevtools.github.io/devtools-protocol/tot/Page/#method-printToPDF

答案 3 :(得分:0)

使用Java Selenium 4.x.x发行版中的ChromiumDriver,即可实现。

String command = "Page.printToPDF";
Map<String, Object> params = new HashMap<>();
params.put("landscape", false);
Map<String, Object> output = driver.executeCdpCommand(command, params);
try {
    FileOutputStream fileOutputStream = new FileOutputStream("export.pdf");
    byte[] byteArray = Base64.getDecoder().decode((String)output.get("data"));
    fileOutputStream.write(byteArray);
} catch (IOException e) {
    e.printStackTrace();
}

来源:Selenium_CDP