使用JSOUP解析IPA符号的问题

时间:2017-03-02 19:27:11

标签: java jsoup html-parsing

我正在尝试使用 jsoup 解析来自www.wordreference.com的英语单词转换。但是我对IPA符号有麻烦,比如“æ”,“ǝ”等。我总是得到问号而不是这些符号。我尝试了不同的字符集,但它不起作用。这是代码:

public class TestClassParse {

    public static void main(String[] args) {

        Document doc;
        String transcription = "[ ]";
        try {

            String url = "http://www.wordreference.com/enru/word";
            String charset = "ISO-8859-1";

            doc = Jsoup.parse(new URL(url).openStream(), charset, url);
            Element transcriptionElement = doc.getElementById("pronWR");
            transcription = transcriptionElement.html();

        } catch (IOException e) {
            e.printStackTrace();
        }

        System.out.println(transcription);
    }
}

此代码的结果是 / w ???? d / 而不是 /wɜːd/ 。我使用不同的字符集,但得到相同的结果。如何以正确的方式获得转录?

1 个答案:

答案 0 :(得分:0)

使用Jsoup.connect()下载页面。这将自动使用HTTP响应中的charset值并做正确的事情。

String url = "http://www.wordreference.com/enru/word";

String transcription = "[ ]";
try {
    Document document = Jsoup.connect(url).get();
    Element transcriptionElement = document.getElementById("pronWR");
    transcription = transcriptionElement.html();
} catch (IOException e) {
    e.printStackTrace();
}

System.out.println(transcription);

输出/wɜːd/