如何删除添加了换行符的html标记

时间:2015-01-25 12:10:49

标签: java html5 jsoup

以下代码段完成了获取网站内容并使用html标记拆分代码。

try {
      connection =  new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc").openConnection();
      Scanner scanner = new Scanner(connection.getInputStream());
      scanner.useDelimiter("\\Z");
      content = scanner.next();

    }catch ( Exception ex ) {
        ex.printStackTrace();
    }

    String[] output = content.split("</p>");
    StringBuffer result = new StringBuffer();

    for(String content2:output){
        result.append(content2);
        result.append("\n");
    }
    System.out.println(result); /* First print out */

    String parsed = Jsoup.parse(result).text();
    System.out.println(parsed); /* Second print out */ 

第一次打印输出实际上输出了我希望拥有的格式。

然而,在运行Jsoup.parse(结果)之后; 所有新行分隔符都已删除,这使得第二次打印输出 没达到我的期望。

有谁知道如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

如果您想格式化内容,为什么不简单地执行以下操作?

URL url = new URL("https://hackpad.com/ep/pad/static/HUAzLPpAUWc");
Scanner sc = new Scanner(url.openStream());
sc.useDelimiter("\\A");
String parsed = Jsoup.parse(sc.next()).outerHtml();
System.out.println(parsed);