Java Charset InputStreamReader,文件通道差异

时间:2012-12-18 05:52:01

标签: java character-encoding

我正在尝试读取编码为UTF-16文件的(日文)文件。

当我使用带有'UTF-16字符集'的InputStreamReader读取它时,文件被正确读取:

try {
        InputStreamReader read = new InputStreamReader(new FileInputStream("JapanTest.txt"), "UTF-16");
        BufferedReader in = new BufferedReader(read);
        String str;
        while((str=in.readLine())!=null){           
            System.out.println(str);
    }
    in.close();
}catch (Exception e){
    System.out.println(e);
}

但是,当我使用文件通道并从字节数组中读取时,字符串并不总是正确转换:

    File f = new File("JapanTest.txt");
    fis = new FileInputStream(f);
    channel = fis.getChannel();
     MappedByteBuffer buffer = channel.map( FileChannel.MapMode.READ_ONLY, 0L, channel.size());
     buffer.position(0);
    int get = Math.min(buffer.remaining(), 1024);
    byte[] barray = new byte[1024];
    buffer.get(barray, 0, get);
    CharSet charSet = Charset.forName("UTF-16");
    //endOfLinePos is a calculated value and defines the number of bytes to read
    rowString = new String(barray, 0, endOfLinePos, charSet);               
    System.out.println(rowString);

我发现的问题是,如果MappedByteBuffer处于位置0,我只能正确读取字符。如果我增加MappedByteBuffer的位置,然后将一些字节读入字节数组,然后转换为使用字符集UTF-16的字符串,然后字节不能正确转换。如果文件是用UTF-8编码的,我没有遇到过这个问题,这只是UTF-16的一个问题吗?

更多详情: 我需要能够从文件通道中读取任何行,所以为此,我构建一个行结束字节位置列表,然后使用这些位置来获取任何给定行的字节,然后将它们转换为字符串

2 个答案:

答案 0 :(得分:1)

可能InputStreamReader做了正常new String(...)没有进行的一些转换。作为解决方法(并验证此假设),您可以尝试将从new InputStreamReader( new ByteArrayInputStream( barray ) )这样的频道中读取的数据包装起来。

编辑:忘了:) - Channels.newReader()将是你要走的路。

答案 1 :(得分:1)

UTF-16的代码单元是2个字节,而不是像UTF-8那样的字节。模式和单字节代码单元长度使UTF-8自同步;它可以在任何时候正确读取,如果它是一个连续字节,它可以回溯或只丢失一个字符。

使用UTF-16时,必须始终使用字节对,不能以奇数字节开始读取或以奇数字节停止读取。您还必须知道字节顺序,并且在不读取文件开头时使用UTF-16LE或UTF-16BE,因为没有BOM。

您也可以将文件编码为UTF-8。