Question

我使用dom4j在xml文件中提取信息（全部在一个文件夹中）。这是我的代码：

    File folder = new File("c:/folder directory");
    File[] listOfFiles = folder.listFiles();
    FileOutputStream foutstream = new FileOutputStream("c:/mozilla_expertlist.txt",true);
    PrintWriter writer = new PrintWriter(foutstream);

    for (File file: listOfFiles)
    {
        System.out.println(file.getName());
        File f = new File("c:/Users/dahuo2013/workspace/mozilla_xml/"+file.getName());
        SAXReader reader = new SAXReader();
        reader.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
        reader.setEncoding("utf-8");
        Document doc = reader.read(f);
        Element root = doc.getRootElement(); 
        Element foo;

        for (Iterator i = root.elementIterator("bug"); i.hasNext();) 
        { 
            foo = (Element) i.next();
            writer.println(foo.elementText("assigned_to"));
        }

    }
    writer.close();

我的代码正在运行，但它总是有错误报告。然后我发现当xml文件有NUL NUL NUL字符时。它显示错误。当我删除那些NUL字符。它肯定会奏效。

但是我在文件夹中有超过4000个xml文件。我不能一个一个地删除那些NUL文件。我的xml由utf-8编码。有没有简单的方法来避免那些NUL角色？或者什么样的简单解决方案可以删除那些NUL字符？

谢谢！

也：

enter image description here

这是NUL角色。我在notepad ++中打开了

xml文件中的NUL字符（使用dom4j）

0 个答案: