我有一个表格的简单XML表示。当我仅使用代码(包括在下面)遍历顶级时。我得到5个节点,实际上在提供的示例中只有2个(theader和tbody)。有人可以解释一下原因吗?
package testparser;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.Vector;
import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
public class TestParser {
private static final int FILE_small = 1;
private static final int FILE_medium = 2;
private static final int FILE_large = 3;
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
doDomTest(1);
}
private static void doDomTest(int sizeId) {
String filename = getFileNameFromId(sizeId);
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
try {
DocumentBuilder db = dbf.newDocumentBuilder();
FileInputStream fis = new FileInputStream(filename);
Document doc = db.parse(fis);
Element topElement = doc.getDocumentElement();
NodeList nl = topElement.getChildNodes();
int ilen = nl.getLength();
print("Top Element count " + ilen);
for (int i=0;i<ilen;i++){
Node node = nl.item(i);
if (node.getNodeType()==Node.TEXT_NODE) {
print(i + ". Name:" + node.getNodeName() + "= " + node.getNodeValue() + ". type " + node.getNodeType());
} else {
print(i + ". Name:" + node.getNodeName() + ", type " + node.getNodeType());
}
}
} catch (Exception e) {
e.printStackTrace();
}
}
private static String getFileNameFromId(int sizeId) {
String sReturn = "";
switch (sizeId) {
case FILE_small:
sReturn = "D:/temp/testdata_ok.xml";
break;
case FILE_medium:
sReturn = "D:/temp/testdata_ok.xml";
break;
case FILE_large:
sReturn = "D:/temp/testdata_ok.xml";
break;
}
return sReturn;
}
private static void print(String sValue) {
System.out.println(sValue);
}
}
测试数据
<?xml version="1.0" encoding="utf-8"?>
<table>
<theader>
<tr>
<th>Title Col1</th>
<th>Title Col2</th>
<th>Title Col3</th>
<th>Title Col4</th>
</tr>
</theader>
<tbody>
<tr>
<td>data:R1C1</td>
<td>data:R1C2</td>
<td>data:R1C3</td>
<td>data:R1C4</td>
</tr>
<tr>
<td>data:R2C1</td>
<td>data:R2C2</td>
<td>data:R2C3</td>
<td>data:R2C4</td>
</tr>
<tr>
<td>data:R3C1</td>
<td>data:R3C2</td>
<td>data:R3C3</td>
<td>data:R3C4</td>
</tr>
<tr>
<td>data:R4C1</td>
<td>data:R4C2</td>
<td>data:R4C3</td>
<td>data:R4C4</td>
</tr>
<tr>
<td>data:R5C1</td>
<td>data:R5C2</td>
<td>data:R5C3</td>
<td>data:R5C4</td>
</tr>
</tbody>
</table>
控制台输出
Top Element count 5
0. Name:#text=
. type 3
1. Name:theader, type 1
2. Name:#text=
. type 3
3. Name:tbody, type 1
4. Name:#text=
. type 3
注意输出中是如何报告theader和tbody(第1行和第3行)但是我还有项目0,2和4.为什么额外的节点?我本来期望分别为theader和tbody列出0和1的行。
“类型1”/“类型3”表示也在输出中打印的“getNodeType()”方法的值。我发现getNodeType()意味着here。
我正在使用JDK 1.6.0u24
答案 0 :(得分:5)
三个额外节点是表示空白区域的文本节点:
<table>
和<theader>
</theader>
和<tbody>
之间,以及</tbody>
和</table>
之间。我不确定这一点,但我认为您可以通过调用
来消除节点 dbf.setIgnoringElementContentWhitespace(true);
阅读the javadoc,注意那些说解析器必须处于验证模式的位...
答案 1 :(得分:4)
如输出所示,这些是表和theader / tbody元素之间的空格。如果没有DTD或模式,解析器就不会知道可以忽略这些空格。您必须在解析器代码中跳过这些节点。