java utf-8到十进制

时间:2013-04-15 21:36:12

标签: java utf-8 encode html-entities

要求是读取文件。基于少数规则,修改文本并将其写入不同的文件。源文件是UTF-8格式,所有特殊字符都需要转换为HTML实体表示。

编写以下代码,转换非ascii字符

    private String convertNonASCIIToDecimal(String ref) throws Exception
    {
    Pattern pat = Pattern.compile("[^\\p{ASCII}]");
    Matcher matcher = pat.matcher(ref);
    String temp;
    String tempSrc = ref;
    int charValue = 0;
    while (matcher.find())
    {
        temp=matcher.group();
        charValue = (int)temp.charAt(0);
        logger.debug("As:"+temp +":" +charValue);
        tempSrc=tempSrc.replaceAll(temp, "&#" + charValue + ";");
    }
    return tempSrc;
    }

我想知道,有没有更好的方法或功能可以做同样的事情。将非ascii转换为其HTML实体表示。

0 个答案:

没有答案