Question

我使用带有xerces 2.11.0版本的NekoHTML框架来解析HTML文档。但我对这个简单的代码有疑问：

DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
    parser.parse(url);
    Document document = parser.getDocument();
    System.out.println(document.hasChildNodes());
    System.out.println(document.getBaseURI());
    System.out.println(document.getNodeName());
    System.out.println(document.getNodeValue());
}catch(Exception e){
    e.printStackTrace();
}

现在我把这些多次打印的结果放在这里：

class org.cyberneko.html.parsers.DOMParser
真
http://www.cbgarden.org
文档
空

所以我的问题是：可能出现什么问题？没有抛出异常，我遵循NekoHTML中使用规则中定义的规则。我的构建路径库具有以下优先级：

nekohtml.jar
nekohtmlSamples.jar
xercesImpl.jar
xercesSamples.jar
XML-apis.jar

Answer 1

我猜你的问题是关于null？
文档节点没有值。它只有子节点（如<html>包含<head>和<body>）。

但是如果你想将整个页面源作为字符串，你只需使用URL方法openStream()下载它。

使用NekoHTML解析html文档

1 个答案: