文档以小写<!doctype开头时,空手道HTML解析引发SaxException

时间:2019-06-20 16:26:53

标签: java html xhtml sax karate

我正在尝试运行一个空手道测试,该测试在URL上调用GET,但是我发现当网站以小写形式返回其<!doctype声明(在“正常” HTML中完全可以接受)时,我认为空手道XML解析器会引发致命错误和警告。在我看来,空手道使用了XML解析器,因此严格来说,这可能是正确的行为,因为小写doctype会中断。但是,我找不到有效的HTML解决此问题的方法。我曾使用过不同的标题,但似乎无法超越。

我已经进行了一个小测试,幸运的是google.com也返回了小写声明:

示例测试

Given url 'http://www.google.com'
When method GET
Then status 200

错误

[Fatal Error] :1:3: The markup in the document preceding the root element must be well-formed.
15:19:45.267 [main] WARN com.intuit.karate.FileUtils - parsing failed: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 3; The markup in the document preceding the root element must be well-formed.

<!doctype html><html .... blah

我下载了空手道源,并发现了报告的警告:

FileUtils.java

public static String toPrettyString(String raw) {
    raw = StringUtils.trimToEmpty(raw);
    try {
        if (Script.isJson(raw)) {
            return JsonUtils.toPrettyJsonString(JsonUtils.toJsonDoc(raw));
        } else if (Script.isXml(raw)) {
            return XmlUtils.toString(XmlUtils.toXmlDoc(raw), true);
        }
    } catch (Exception e) {
        logger.warn("parsing failed: {}", e.getMessage());
    }
    return raw;
}

通过检查返回文档的第一个字符,检查似乎在JSON或XML之间:

Script.java

public static final boolean isXml(String text) {
    return text.startsWith("<");
}

XmlUtils.java

然后我认为builder.parse失败了,因为它不是有效的XHTML,因为后面的注释暗示<!doctype将在递归调用中被删除。

public static Document toXmlDoc(String xml) {
    ...

    Document doc = builder.parse(is);
    if (dtdEntityResolver.dtdPresent) { // DOCTYPE present
        // the XML was not parsed, but I think it hangs at the root as a text node
        // so conversion to string and back has the effect of discarding the DOCTYPE !
        return toXmlDoc(toString(doc, false));

是否可以将此流转移到有效的HTML?

1 个答案:

答案 0 :(得分:1)

如果您查看日志,空手道还会告诉您,它已将完整响应(将在response变量中保留)保留为字符串-即使未能将其“类型转换”为XML。顺便说一下,您甚至在responseBytes中有一个字节数组。因此,现在就由您决定执行任何操作,例如,从理论上讲,您可以找到“宽容”的HTML解析器并获得DOM树或其他内容。

Given url 'http://www.google.com'
When method GET
Then status 200
* print response

一些提示,您可以尝试在response上进行字符串替换,然后尝试将其类型转换为XML,请参考:https://github.com/intuit/karate#type-conversion

或者也许您要做的只是刮除一些数据,并且某些常规的正则表达式匹配可能会起作用,请参考以下内容:

https://stackoverflow.com/a/53682733/143475

https://stackoverflow.com/a/50372295/143475