Question

以下代码段完成了获取网站内容并使用html标记拆分代码。

try {
      connection =  new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc").openConnection();
      Scanner scanner = new Scanner(connection.getInputStream());
      scanner.useDelimiter("\\Z");
      content = scanner.next();

    }catch ( Exception ex ) {
        ex.printStackTrace();
    }

    String[] output = content.split("</p>");
    StringBuffer result = new StringBuffer();

    for(String content2:output){
        result.append(content2);
        result.append("\n");
    }
    System.out.println(result); /* First print out */

    String parsed = Jsoup.parse(result).text();
    System.out.println(parsed); /* Second print out */

第一次打印输出实际上输出了我希望拥有的格式。

然而，在运行Jsoup.parse（结果）之后; 所有新行分隔符都已删除，这使得第二次打印输出没达到我的期望。

有谁知道如何解决这个问题？

Answer 1

如果您想格式化内容，为什么不简单地执行以下操作？

URL url = new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc");
Scanner sc = new Scanner(url.openStream());
sc.useDelimiter("\\A");
String parsed = Jsoup.parse(sc.next()).outerHtml();
System.out.println(parsed);

如何删除添加了换行符的html标记

1 个答案: