将csv文件转换为xml文件时出错

时间:2017-01-04 10:52:04

标签: java xml csv

java文件代码:

public class xmlCreator {

    protected DocumentBuilderFactory domFactory = null;
    protected DocumentBuilder domBuilder = null;

    public xmlCreator() {
        try {
            domFactory = DocumentBuilderFactory.newInstance();
            domBuilder = domFactory.newDocumentBuilder();

        } catch (FactoryConfigurationError exp) {
            System.err.println(exp.toString());

        } catch (Exception exp) {
            System.err.println(exp.toString());
        }
    }

    public int convertFile(String csvFileName, String xmlFileName,String delimiter) throws FileNotFoundException {
        int rowsCount = -1;

        try {
            Document newDoc = domBuilder.newDocument();
            // Root element
            Element rootElement = newDoc.createElement("SynsetDetails");
            newDoc.appendChild(rootElement);
            // Read csv file
            BufferedReader csvReader;
            csvReader = new BufferedReader(new FileReader(csvFileName));

            int line = 0;
            List<String> headers = new ArrayList<String>(5);

            String text = null;
            while ((text = csvReader.readLine()) != null) {

                StringTokenizer st = new StringTokenizer(text, delimiter, false);
                String[] rowValues = new String[st.countTokens()];
                int index = 0;

                while (st.hasMoreTokens()) {
                    String next = st.nextToken();
                    rowValues[index++] = next;
                }

                if (line == 0) { // Header row

                    for (String col : rowValues) {
                        headers.add(col);
                    }

                } else { // Data row
                    rowsCount++;

                    Element rowElement = newDoc.createElement("Synset");
                    rootElement.appendChild(rowElement);
                    for (int col = 0; col < headers.size(); col++) {

                        String header = headers.get(col);
                        String value = null;

                        if (col < rowValues.length) {

                            value = rowValues[col];

                        } else {
                            // ?? Default value
                            value = "";
                        }

                        Element curElement = newDoc.createElement(header);
                        curElement.appendChild(newDoc.createTextNode(value));
                        rowElement.appendChild(curElement);
                    }

                }
                line++;
            }

            ByteArrayOutputStream baos = null;
            OutputStreamWriter osw = null;

            try {

                baos = new ByteArrayOutputStream();
                osw = new OutputStreamWriter(baos);

                TransformerFactory tranFactory = TransformerFactory.newInstance();
                Transformer aTransformer = tranFactory.newTransformer();
                aTransformer.setOutputProperty(OutputKeys.INDENT, "yes");
                aTransformer.setOutputProperty(OutputKeys.METHOD, "xml");
                aTransformer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "4");

                Source src = new DOMSource(newDoc);
                Result result = new StreamResult(osw);
                aTransformer.transform(src, result);

                //File  Creation                

                //create file

                StreamResult file = new StreamResult(new File("C:\\Users\\Nishita\\Desktop\\docs\\synset1.xml"));

                //Write data

                aTransformer.transform(src, file);
                System.out.println("Done");

                osw.flush();
                System.out.println(new String(baos.toByteArray()));

            } catch (Exception exp) {
                exp.printStackTrace();
            } finally {
                try {
                    osw.close();
                } catch (Exception e) {
                }

                try {
                    baos.close();
                } catch (Exception e) {
                }
            }

            // Output to console for testing
            Result result = new StreamResult(System.out);

        } catch (IOException exp) {
            System.err.println(exp.toString());
        } catch (Exception exp) {
            System.err.println(exp.toString());
            exp.printStackTrace();
        }

       System.out.println("XLM Document has been created" + rowsCount);

       return rowsCount;       
    }
}

主类代码:

public static void main(String[] args) throws FileNotFoundException {        
    xmlCreator create = new xmlCreator();
    create.convertFile("hindi_wordnet_synsets.csv","synsets",";");
}

Csv文件:

synset_id;head;"convert(synset using utf8)";"convert(gloss using utf8)";category
1;अजन्मा;अजन्मा,अजात,अनुत्पन्न,अनुद्भूत,अप्रादुर्भूत,अज,अजन,अजन्म,अनन्यभव,अनागत,अयोनि;"जिसनेजन्मनलियाहो";adjective
30168;स्वयंभू;स्वयंभू,स्वयंभु,स्वजन्मा,अयोनिज,आत्मभू,आत्मभव,आत्म-योनि,आत्मसमुद्भव;"जो स्वंय उत्पन्न या पैदा हुआ हो:""भगवान स्वयंभू हैं""";adjective
2;अनासन्न;अशुभ,अमांगलिक,अमाङ्गलिक,अक्षेम,अमंगल,अमङ्गल,अरिष्ट,दग्ध;"जो शुभ न हो:""बिल्ली के द्वारा रास्ता काटा जाना अशुभ माना जाता है""";adjective
3;अप्रविष्ट;अप्रविष्ट;"जो प्रविष्ट न हुआ हो:""अप्रविष्ट अतिथियों को शीघ्र ही भीतर प्रवेश करने दिया जाय""";adjective
4;"चैत्य स्थान";"पवित्र स्थान,चैत्य स्थान,पुण्य भूमि,पुण्य-स्थल,पुण्य स्थल";"वह स्थान जो पवित्र माना जाता हो:""हिंदुओं के लिए काशी एक पवित्र स्थान है""";noun
5;शिवालय;"शिवालय,शिव मंदिर,शिवाला,सिवाला,सौधाल,शिवायतन";"वह मंदिर जिसमें भगवान शिव की मूर्ति स्थापित की गयी हो और वहाँ शिव की आराधना की जाती हो:""वह प्रत्येक सोमवार को शिवालय जाता है""";noun
6;;"अपवित्र स्थान,अपुण्यभूमि,अपवित्रस्थली";"वह स्थान जो पवित्र न हो:""धार्मिक मान्यता है कि भूत-प्रेत अपवित्र स्थानों पर ही निवास करते हैं""";noun
7;;आगत,समागत;"जो आया हुआ हो:""आगत व्यक्तियों का स्वागत करो""";adjective
8;जन्मा;"जन्मा,उत्पन्न,जन्मा हुआ,जात,संजात,जनित,प्रसूत,प्रसून,सूत,रूढ़,अवजनित,पैदा हुआ,संवृत्त,आविर्भूत,उतपन्न";"जो पैदा हुआ हो या जिसने जन्म लिया हो:""जन्मे प्राणियों की मृत्यु निश्चित है / चिंता से जन्मी बीमारियाँ घातक भी हो सकती हैं""";adjective
9;"नैतिक कार्य";"नैतिक कार्य,सत्कर्म,सुकर्म,अच्छा काम,सत्कार्य,सुकृत्य,साधुकर्म,अवदान,धर्म";"ऐसा कार्य जो नीतिपरक हो:""नैतिक कार्यों के द्वारा ही हम समाज का उत्थान कर सकते हैं""";noun

抛出异常:

  

org.w3c.dom.DOMException:INVALID_CHARACTER_ERR:无效或非法   指定了XML字符。 org.w3c.dom.DOMException中:   INVALID_CHARACTER_ERR:无效或非法的XML字符   指定。

请提供此解决方案

1 个答案:

答案 0 :(得分:1)

您使用标题名称作为元素名称。但标题名称包含括号和空格等特殊字符,不允许使用这些字符作为XML元素名称。

用标题名称中的允许字符(如下划线或连字符)替换所有这些字符,并使用调整后的标题字符串作为元素名称。