我有一个日语内容,正在使用某个工具转换为MS帮助。问题是第三方工具没有使用utf-8编码,而是使用垃圾字符创建.xml:
<param name="Name" value="ÉAÉvÉäÉPÅÉVÉáÉìdžÇ'ÇËÇØÅǵÇÃ'ÇÃ']">
<param name="Name" value="Test File">
<param name="Local" value="applications.htm#Xau1044547">
我尝试使用编码,它现在产生:
<param name="Name" value="ÉAÉvÉäÉPÅ">
<param name="Name" value="Test">
<param name="Local" value="applications.htm#Xau1044547">
但是使用utf-8编码(另一种工具),正确的输出应该是:
<param name="Name" value="アプリケーション">
<param name="Name" value="Small Business アプリケーションの起動 ">
<param name="Local" value="applications1.html#wp1044548">
我是否可以使用任何java API对文件进行解码和编码,以获得正确的输出。我不确定该工具使用的是什么,但我猜它的“ISO-8859-1”。
感谢。
答案 0 :(得分:1)
您的问题是您需要正确使用两个编码:
答案 1 :(得分:0)
从最上面的示例中可以看出,此时您的编码已经损坏。用HTML character escape codes(十进制NCR)表示的第一个“名称”属性的值。
话虽如此,第二个样本(值=“ÉAÉvÉäÉPÅ”)和第三个样本(值=“アプリケーション”)与第一个样本不匹配。
如果HTML字符转义确实是输出应该是什么,那么输出编码将是ASCII或其他一些变体,然后该值将是:
value="アプリグーション"
我认为您需要重新确认第三方工具如何输出XML。