我试图从html文件中提取纯明文,但由于html或其他形式不完整,我能够提取部分明文并仅保留为html代码。我们如何强制非良好形成的html,以便始终提取整个明文。非常感谢任何帮助。
目前使用的代码如下所示
File file = new File("pathofHTMLfile");
String parseHtml = FileUtils.readFileToString(file);
parseHtml= parseHtml.replaceAll("[^\\x00-\\x7F]", " ");
Document doc=Jsoup.parse(parseHtml);
String st= doc.text();
示例文本文件在下面的url中给出 https://github.com/snehareddy1990/test/blob/master/testnonwellformedhtml.txt