我想做一个简单的任务,将iso-8859-1中的文件编码转换为UNICODE。根据{{3}}
中的java规范字符小于\ u0020且字符大于\ u007E in 属性键或值写为\ uxxxx为适当的 十六进制值xxxx。
看着互联网,似乎native2ascii已经很老了并且有问题,而docs.oracle.com(和po2prop)要好得多。
如何对包含“à”等字符的文件进行直接翻译,以便将其翻译成\ 00e0(http://www.fileformat.info/info/unicode/char/00e0/index.htm)?
我一直在看这个很长一段时间,但却找不到合适的答案。
答案 0 :(得分:1)
不确定这是否是您正在寻找的,但您可以看到我如何处理各种输入文本流类型(包括UTF-8和ISO 8859-1)和各种输出文本流类型(包括UTF-16)在我的crlf
实用程序中,我写了一会儿。该程序可以选择将控制字符转换为\udddd
个字符序列。
它在:
http://david.tribble.com/src/crlf.cpp
http://david.tribble.com/src/src.html
预先警告它是用C ++编写的,而不是Java。
答案 1 :(得分:0)
作为一个快速而肮脏的黑客,您可以将字符串编码为JSON并去掉最终引号。不太确定像其他常见的JSON这样的属性如何逃脱......