我正在Google App Engine中编写一个Web应用程序。它允许人们基本上编辑在blobstore中存储为.html
文件的html代码。
我正在使用fetchData返回文件中所有字符的byte[]
。我正在尝试打印到html,以便用户编辑html代码。一切都很棒!
这是我现在唯一的问题:
字节数组在转换回字符串时遇到一些问题。聪明的报价和几个角色看起来很时髦。 (?或日文符号等)具体来说,我看到的几个字节都有负值导致问题。
智能引号在字节数组中以-108
和-109
的形式返回。为什么这个以及如何解码负字节以显示正确的字符编码?
答案 0 :(得分:141)
字节数组包含特殊编码的字符(您应该知道)。将其转换为String的方法是:
String decoded = new String(bytes, "UTF-8"); // example for one encoding type
按方式 - 原始字节出现可能显示为负小数,因为java数据类型byte
已签名,它涵盖-128到127的范围。
-109 = 0x93: Control Code "Set Transmit State"
值(-109)是UNICODE中的不可打印控制字符。因此,UTF-8不是该字符流的正确编码。
“Windows-1252”中的 0x93
是您正在寻找的“智能引用”,因此该编码的Java名称为“Cp1252”。下一行提供了测试代码:
System.out.println(new String(new byte[]{-109}, "Cp1252"));
答案 1 :(得分:25)
Java 7及以上
您还可以将所需的编码作为来自StandardCharsets的String
常量传递给Charset
构造函数。这可能比将编码作为String
传递更安全,如其他答案所示。
例如,对于UTF-8编码
String bytesAsString = new String(bytes, StandardCharsets.UTF_8);
答案 2 :(得分:11)
你可以试试这个。
String s = new String(bytearray);
答案 3 :(得分:5)
public class Main {
/**
* Example method for converting a byte to a String.
*/
public void convertByteToString() {
byte b = 65;
//Using the static toString method of the Byte class
System.out.println(Byte.toString(b));
//Using simple concatenation with an empty String
System.out.println(b + "");
//Creating a byte array and passing it to the String constructor
System.out.println(new String(new byte[] {b}));
}
/**
* @param args the command line arguments
*/
public static void main(String[] args) {
new Main().convertByteToString();
}
}
输出
65
65
A
答案 4 :(得分:5)
public static String readFile(String fn) throws IOException
{
File f = new File(fn);
byte[] buffer = new byte[(int)f.length()];
FileInputStream is = new FileInputStream(fn);
is.read(buffer);
is.close();
return new String(buffer, "UTF-8"); // use desired encoding
}
答案 5 :(得分:4)
我建议Arrays.toString(byte_array);
这取决于你的目的。例如,我想保存一个字节数组,就像你在调试时看到的格式一样:[1, 2, 3]
如果你想保存完全相同的值而不将字节转换为字符格式,{{1} 1}}这样做。但是如果要保存字符而不是字节,则应使用Arrays.toString (byte_array)
。在这种情况下,String s = new String(byte_array)
等于字符格式的s
。
答案 6 :(得分:3)
Andreas_D之前的回答很好。我只想补充一点,无论你在哪里显示输出,都会有字体和字符编码,它可能不支持某些字符。
要确定是Java还是显示器有问题,请执行以下操作:
for(int i=0;i<str.length();i++) {
char ch = str.charAt(i);
System.out.println(i+" : "+ch+" "+Integer.toHexString(ch)+((ch=='\ufffd') ? " Unknown character" : ""));
}
Java会将任何无法理解的字符映射到0xfffd,这是未知字符的官方字符。如果你看到'?'在输出中,但它没有映射到0xfffd,这是你的显示字体或编码问题,而不是Java。