提取部分明文,并使用JSoup显示剩余的HTML

时间:2017-11-07 06:15:43

标签: java html parsing jsoup html-parsing

我试图从html文件中提取纯明文,但由于html或其他形式不完整,我能够提取部分明文并仅保留为html代码。我们如何强制非良好形成的html,以便始终提取整个明文。非常感谢任何帮助。

目前使用的代码如下所示

File file = new File("pathofHTMLfile");
String parseHtml = FileUtils.readFileToString(file); 
parseHtml= parseHtml.replaceAll("[^\\x00-\\x7F]", " ");
Document doc=Jsoup.parse(parseHtml);
String st= doc.text();

示例文本文件在下面的url中给出    https://github.com/snehareddy1990/test/blob/master/testnonwellformedhtml.txt

0 个答案:

没有答案