应用错误收集

我正在使用Jsoup来解析具有未知字符编码的HTML文件。我使用null字符集调用Jsoup.parse并让Jsoup自动检测。有些文件有meta个标签，Jsoup选择很好。

但是我的某些文件没有meta个标签，并使用了不是UTF-8的各种编码。对于这些情况，Jsoup回落到UTF-8，导致一些破碎的字符。

我发现juniversalchardet库能够正确地自动检测这些情况。例如，它在几个示例中正确检测到WINDOWS-1252编码。

理想情况下，我想使用meta标记（如果存在）。如果他们没有回到juniversalchardet报告的内容（不只是猜测UTF-8）。

我可以为Jsoup提供一个后备字符集，仅在无法找到元标记的情况下使用吗？
或者，我可以从Jsoup获取有关是否必须猜测编码的信息吗？如果它报告它已经猜到了那么我可以调用juniversalchardet然后使用传递给Jsoup的显式编码进行重新分析。

我已经查看了Jsoup的源代码，从v1.8.3开始，似乎从meta标签中检测字符集的代码没有被分解到单独的方法中（查找{{1的源代码） }）。此外，关于是否猜到的信息似乎不会出现在最终文档中。

有没有更好的方法来实现我的目标？是否存在用于检测已经可以使用html元标记的文件的字符编码的库（如果它们存在的话），我可以完全使用它来代替jsoup的自动检测？