我使用dom4j在xml文件中提取信息(全部在一个文件夹中)。 这是我的代码:
File folder = new File("c:/folder directory");
File[] listOfFiles = folder.listFiles();
FileOutputStream foutstream = new FileOutputStream("c:/mozilla_expertlist.txt",true);
PrintWriter writer = new PrintWriter(foutstream);
for (File file: listOfFiles)
{
System.out.println(file.getName());
File f = new File("c:/Users/dahuo2013/workspace/mozilla_xml/"+file.getName());
SAXReader reader = new SAXReader();
reader.setFeature("http://apache.org/xml/features/nonvalidating/load-external-dtd", false);
reader.setEncoding("utf-8");
Document doc = reader.read(f);
Element root = doc.getRootElement();
Element foo;
for (Iterator i = root.elementIterator("bug"); i.hasNext();)
{
foo = (Element) i.next();
writer.println(foo.elementText("assigned_to"));
}
}
writer.close();
我的代码正在运行,但它总是有错误报告。然后我发现当xml文件有NUL NUL NUL字符时。它显示错误。当我删除那些NUL字符。它肯定会奏效。
但是我在文件夹中有超过4000个xml文件。我不能一个一个地删除那些NUL文件。我的xml由utf-8编码。有没有简单的方法来避免那些NUL角色?或者什么样的简单解决方案可以删除那些NUL字符?
谢谢!
也:
这是NUL角色。我在notepad ++中打开了