java - 提取部分明文，并使用JSoup显示剩余的HTML

我试图从html文件中提取纯明文，但由于html或其他形式不完整，我能够提取部分明文并仅保留为html代码。我们如何强制非良好形成的html，以便始终提取整个明文。非常感谢任何帮助。

目前使用的代码如下所示

File file = new File("pathofHTMLfile");
String parseHtml = FileUtils.readFileToString(file); 
parseHtml= parseHtml.replaceAll("[^\\x00-\\x7F]", " ");
Document doc=Jsoup.parse(parseHtml);
String st= doc.text();

示例文本文件在下面的url中给出 https://github.com/snehareddy1990/test/blob/master/testnonwellformedhtml.txt

提取部分明文，并使用JSoup显示剩余的HTML

0 个答案: