我正在尝试使用 jsoup 解析来自www.wordreference.com的英语单词转换。但是我对IPA符号有麻烦,比如“æ”,“ǝ”等。我总是得到问号而不是这些符号。我尝试了不同的字符集,但它不起作用。这是代码:
public class TestClassParse {
public static void main(String[] args) {
Document doc;
String transcription = "[ ]";
try {
String url = "http://www.wordreference.com/enru/word";
String charset = "ISO-8859-1";
doc = Jsoup.parse(new URL(url).openStream(), charset, url);
Element transcriptionElement = doc.getElementById("pronWR");
transcription = transcriptionElement.html();
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(transcription);
}
}
此代码的结果是 / w ???? d / 而不是 /wɜːd/ 。我使用不同的字符集,但得到相同的结果。如何以正确的方式获得转录?
答案 0 :(得分:0)
使用Jsoup.connect()
下载页面。这将自动使用HTTP响应中的charset值并做正确的事情。
String url = "http://www.wordreference.com/enru/word";
String transcription = "[ ]";
try {
Document document = Jsoup.connect(url).get();
Element transcriptionElement = document.getElementById("pronWR");
transcription = transcriptionElement.html();
} catch (IOException e) {
e.printStackTrace();
}
System.out.println(transcription);
输出/wɜːd/
。