如何使用JSoup保持<p>标签之间的分离?</p>

时间:2014-09-19 01:57:47

标签: java html parsing html-parsing jsoup

我正在尝试编写一个程序来获取一首歌的歌词。这是我第一次使用网站解析,我正在使用JSoup。我写了一个方法,可以给我歌词,但只作为一个大的,未格式化的字符串。

带有歌词的网站是:http://www.metrolyrics.com/lights-out-words-gone-lyrics-bombay-bicycle-club.html

他们将经文与p标签和br标签分开,我不知道如何保持它们之间的分离。

这就是我现在所拥有的:

public static String getLyrics(String url) throws Exception
{
    int i = 0;
    String lyrics = "";
    Document document = Jsoup.connect(url).get();
    Elements lines = document.select("p.verse");
    String [] verses = new String[lines.size()];
    for(Element el : lines)
        verses[i++] = el.text();
    for(String verse : verses)
        lyrics = lyrics + verse + "\n";
    return lyrics;
}

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

public static String getLyrics(String url) throws Exception {
    int i = 0;
    StringBuilder lyrics = new StringBuilder();
    Document document = Jsoup.connect(url).get();
    Elements lines = document.select("p.verse");
    String [] verses = new String[lines.size()];
    for(Element el : lines)
        verses[i++] = el.html();        

    for(String verse : verses)
        lyrics.append(verse + System.getProperty("line.separator") + System.getProperty("line.separator"));

    return lyrics.toString().replaceAll("<br>\\s+", System.getProperty("line.separator")).trim();
}