Question

社区！

我的项目很简单：我有一个链接到一个网站，该网站有关于不同化学物质的多种信息，我想提取一些数据并输入pdf。事实是，我想保持原始HTML的格式（当然，使用它的CSS）。物质示例：http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs

我使用jsoup来读取页面底部的表格的HTML，MSDS一个，包含多个部分，其中包含有关该物质的不同信息，但我真的不知道如何将确切的HTML格式保存到我的pdf文件。我也尝试过使用iText，但它给了我“缺少结束标记”的错误，如果它有效，它将打印整页，而不仅仅是msds表。

这是我试图做的，但效果不好：

Document docu = Jsoup.connect(urlbun).get();
        Element tableHeader = docu.select("div[class=\"msds\"]")
                .first();
        String[] finSyn = tableHeader.text().split(" ");
        String moreText =" ";

我试图将该网页下的文本拆分为该div（“class =”msds“”），但我无法找到一种方法将其拆分为好方法。

拜托，请你帮我一个暗示怎么办？即使格式化不一样，我也希望能够以相同的方式显示信息，包括缩进等。

谢谢！

Answer 1

您可以将要转换为PDF的内容放在CSS ID（例如DIV）中，然后使用PDFmyURL API将该部分转换为PDF。

请参阅我们的网站about how to select pieces from a page to convert to PDF

披露：我为拥有该网站的公司工作

使用Java将html部分打印成pdf

1 个答案: