社区!
我的项目很简单:我有一个链接到一个网站,该网站有关于不同化学物质的多种信息,我想提取一些数据并输入pdf。事实是,我想保持原始HTML的格式(当然,使用它的CSS)。 物质示例:http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs
我使用jsoup来读取页面底部的表格的HTML,MSDS一个,包含多个部分,其中包含有关该物质的不同信息,但我真的不知道如何将确切的HTML格式保存到我的pdf文件。我也尝试过使用iText,但它给了我“缺少结束标记”的错误,如果它有效,它将打印整页,而不仅仅是msds表。
这是我试图做的,但效果不好:
Document docu = Jsoup.connect(urlbun).get();
Element tableHeader = docu.select("div[class=\"msds\"]")
.first();
String[] finSyn = tableHeader.text().split(" ");
String moreText =" ";
我试图将该网页下的文本拆分为该div(“class =”msds“”),但我无法找到一种方法将其拆分为好方法。
拜托,请你帮我一个暗示怎么办?即使格式化不一样,我也希望能够以相同的方式显示信息,包括缩进等。
谢谢!
答案 0 :(得分:1)
您可以将要转换为PDF的内容放在CSS ID(例如DIV)中,然后使用PDFmyURL API将该部分转换为PDF。
请参阅我们的网站about how to select pieces from a page to convert to PDF
披露:我为拥有该网站的公司工作