以下代码段完成了获取网站内容并使用html标记拆分代码。
try {
connection = new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc").openConnection();
Scanner scanner = new Scanner(connection.getInputStream());
scanner.useDelimiter("\\Z");
content = scanner.next();
}catch ( Exception ex ) {
ex.printStackTrace();
}
String[] output = content.split("</p>");
StringBuffer result = new StringBuffer();
for(String content2:output){
result.append(content2);
result.append("\n");
}
System.out.println(result); /* First print out */
String parsed = Jsoup.parse(result).text();
System.out.println(parsed); /* Second print out */
第一次打印输出实际上输出了我希望拥有的格式。
然而,在运行Jsoup.parse(结果)之后; 所有新行分隔符都已删除,这使得第二次打印输出 没达到我的期望。
有谁知道如何解决这个问题?
答案 0 :(得分:0)
如果您想格式化内容,为什么不简单地执行以下操作?
URL url = new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc");
Scanner sc = new Scanner(url.openStream());
sc.useDelimiter("\\A");
String parsed = Jsoup.parse(sc.next()).outerHtml();
System.out.println(parsed);