将文本编码为xml

时间:2013-12-01 21:44:50

标签: java xml character-encoding

我正在从txt文件生成xml,但是当我使用UTF-8编码时,它不适用于俄语;我只看到一些字符串而不是xml标签中的文本,就像这样(当我使用俄语文本文件时会发生这种情况):

<?xml version="1.0" encoding="UTF-8"?><document>
<el Id="1">
    <text Id="1">Среди других проектов могут быть �озданы , �оздают�� проекты выравнивани�,</text>
</el>
<el Id="2">
    <text Id="2">Отчеты по проектам и до�тупны TM и терминологии управл�ют��. Создание</text>
</el>



public void initXML() throws ParserConfigurationException,TransformerConfigurationException, SAXException {
    // JAXP + SAX
    SAXTransformerFactory tf = (SAXTransformerFactory) SAXTransformerFactory.newInstance();
    th = tf.newTransformerHandler();
    Transformer serializer = th.getTransformer();
    serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
    // XML ausgabe
    serializer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "4");
    serializer.setOutputProperty(OutputKeys.INDENT, "yes");
    th.setResult(out);
    th.startDocument();
    atts = new AttributesImpl();
    th.startElement("", "", "document", atts);
}

使用ISO-8859-1也不行。我可以使用Wich Encoding来解决这个问题吗?

它现在有效,谢谢大家的帮助

1 个答案:

答案 0 :(得分:0)

也许你在txt文件中编码错误。在高级编辑器中打开文件并检查它。