我的应用程序在第一次启动时将某个网站下载为HTML文件。 HTML文件非常混乱,因此我想用HtmlCleaner清理它,以便我可以用Jsoup解析它。但是如何在清理后清理新的html项目?
我做了一些研究,这是我能找到的全部:
HtmlCleaner htmlCleaner = new HtmlCleaner();
TagNode root = htmlCleaner.clean(url);
HtmlCleaner.getInnerHtml(root);
String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";
但我无法在此代码中看到它写入新文件的位置?如果它没有,我该如何实现它以便删除旧文件并创建新的已清理的html文件?
答案 0 :(得分:0)
您可以执行以下操作:
HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.themoscowtimes.com/";
TagNode node = cleaner.clean(new URL(siteUrl));
// serialize to xml file
new PrettyXmlSerializer(props).writeToFile(
node , "cleaned.xml", "utf-8"
);
或
// serialize to html file
SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(htmlCleaner.getProperties());
serializer.writeToFile(node, "c:/temp/cleaned.html");