我正在修补Jsoup,我想知道为什么jsoup.parse(url)会返回HTML的部分内容。这是我的代码:
System.out.println(Jsoup.parse("https://www.example.com"))
这是输出
<html>
<head></head>
<body>
https://www.example.com
</body>
</html>
这是最好的部分,如果你去www.example.com,你会发现解析器错过了两个<p>
标签。
现在文档说这个
public static Document parse(String html)
将HTML解析为文档。由于没有指定基URI,因此绝对URL 检测
依赖于包含标记的HTML。
参数:html - 要解析的HTML
返回:理智的HTML
它说它带回了一份文件,但实际上是一份文件。另外 - 什么是“理智”的HTML?