使用NekoHTML解析html文档

时间:2011-10-11 16:25:37

标签: java html parsing cyberneko

我使用带有xerces 2.11.0版本的NekoHTML框架来解析HTML文档。 但我对这个简单的代码有疑问:

DOMParser parser = new DOMParser();
System.out.println(parser.getClass().toString());
InputSource url = new InputSource("http://www.cbgarden.org");
try{
    parser.parse(url);
    Document document = parser.getDocument();
    System.out.println(document.hasChildNodes());
    System.out.println(document.getBaseURI());
    System.out.println(document.getNodeName());
    System.out.println(document.getNodeValue());
}catch(Exception e){
    e.printStackTrace();
}

现在我把这些多次打印的结果放在这里:

  1. class org.cyberneko.html.parsers.DOMParser
  2. http://www.cbgarden.org
  3. 文档
  4. 所以我的问题是:可能出现什么问题? 没有抛出异常,我遵循NekoHTML中使用规则中定义的规则。我的构建路径库具有以下优先级:

    1. nekohtml.jar
    2. nekohtmlSamples.jar
    3. xercesImpl.jar
    4. xercesSamples.jar
    5. XML-apis.jar

1 个答案:

答案 0 :(得分:1)

我猜你的问题是关于null
文档节点没有值。它只有子节点(如<html>包含<head><body>)。

但是如果你想将整个页面源作为字符串,你只需使用URL方法openStream()下载它。