我一直在编写一些代码转到网站并将HTML代码复制到文本文件中。问题是某些代码被替换为“& nbsp”。 这是我正在使用的代码:
public void addRecords() throws IOException{
URL google = new URL("Insert Website Here");
BufferedReader in = new BufferedReader(
new InputStreamReader(google.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null){
System.out.println(inputLine);
z.format("%s \n ", (inputLine));
}
in.close();
}
答案 0 :(得分:1)
选项2
答案 1 :(得分:0)
有许多形式为&...;
的HTML实体在浏览器中显示为特殊字符。您甚至可以使用免费号码,字符代码:&8233;
。
有一个具有类似unescape函数的Apache库commons lang:
html = StringEscapeUtils.unescapeHtml4(html);
答案 2 :(得分:0)
您可以尝试这样的事情:
System.out.println(inputLine.replaceAll(" "," "));
<强> OBS 强>&GT;请注意,您的HTML页面可能包含其他字符转义符,因此重用该解决方案不太好。
你可以参考这篇文章中的公共lang Apache项目: Replace HTML codes with equivalent characters in Java