我使用带有xerces 2.11.0版本的NekoHTML框架来解析HTML文档。 但我对这个简单的代码有疑问:
DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
parser.parse(url);
Document document = parser.getDocument();
System.out.println(document.hasChildNodes());
System.out.println(document.getBaseURI());
System.out.println(document.getNodeName());
System.out.println(document.getNodeValue());
}catch(Exception e){
e.printStackTrace();
}
现在我把这些多次打印的结果放在这里:
所以我的问题是:可能出现什么问题? 没有抛出异常,我遵循NekoHTML中使用规则中定义的规则。我的构建路径库具有以下优先级:
答案 0 :(得分:1)
我猜你的问题是关于null
?
文档节点没有值。它只有子节点(如<html>
包含<head>
和<body>
)。
但是如果你想将整个页面源作为字符串,你只需使用URL
方法openStream()
下载它。