如何删除Jsoup输出段落中段落之间的空格?

时间:2014-11-22 09:41:42

标签: java jsoup whitespace

这是我的代码。当输出打印时,段落之间也打印出白色空格。如何删除段落之间的空格,然后我想在数组列表中逐句存储。

    public static void main(String[] args) {

    try {
          String url = "http://www.divaina.com/";

          System.setProperty("http.proxyHost", "cache.mrt.ac.lk");
          System.setProperty("http.proxyPort", "3128");

          Document doc = Jsoup.connect(url).timeout(10000).get();

          Elements paragraphs = doc.select("p");
          for(Element p : paragraphs){
            System.out.println(p.text());}
                } 
        catch (IOException ex) {
            ex.printStackTrace();
           }


}

当我直接将内容添加到数据库空白区域时也会添加它。如何删除段落之间的空格?实际上我想阅读网页内容并逐行添加到数据库中。还有其他正确的方法吗?

Screen shot of out come

2 个答案:

答案 0 :(得分:1)

显然有些段落没有文字。这可能会有所帮助:

for (Element p : paragraphs) 
{
    if (p.text().length() != 0)
    System.out.println(p.text());
}

答案 1 :(得分:0)

使用正则表达式:

String withoutspace = whitespace.replaceAll("\\s", "");

或试试这个

String withoutSpace = whitespace.replace("\n", "").replace("\r", "");