Question

有人可以说，为什么下面的代码没有给出任何结果？当然html是有效的，有很多＆＃34; div＆＃34;元件。

    Processor proc = new Processor(false);
    proc.setConfigurationProperty("http://saxon.sf.net/feature/sourceParserClass", "org.ccil.cowan.tagsoup.Parser");
    XPathCompiler xpath = proc.newXPathCompiler();

    DocumentBuilder builder = proc.newDocumentBuilder();
    XdmNode doc = builder.build(new File("/tmp/test.html"));

    XPathSelector selector = xpath.compile("//div").load();
    selector.setContextItem(doc);

    for (XdmItem item : selector)
    {
        System.out.println(((XdmNode)item).getNodeName());
    }

我从撒克逊样本中获取了该代码并添加了＆＃34; proc.setConfigurationProperty ...＆＃34;为了解析html输入。

我想要的只是：
1）提交html字符串
2）获取文档节点
3）使用xpath v3进行一些查询

谢谢。
附：我不想使用xslt。

Answer 1

更改＆＃34; // div＆＃34; to＆＃34; // * [name（）=＆＃34; div＆＃34;]＆＃34;解决了这个问题。

最简单的例子 - 如何使用java解析使用saxon的html？

1 个答案: