Question

我的应用程序在第一次启动时将某个网站下载为HTML文件。 HTML文件非常混乱，因此我想用HtmlCleaner清理它，以便我可以用Jsoup解析它。但是如何在清理后清理新的html项目？

我做了一些研究，这是我能找到的全部：

HtmlCleaner htmlCleaner = new HtmlCleaner();

TagNode root = htmlCleaner.clean(url);

HtmlCleaner.getInnerHtml(root);

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

但我无法在此代码中看到它写入新文件的位置？如果它没有，我该如何实现它以便删除旧文件并创建新的已清理的html文件？

Answer 1

您可以执行以下操作：

HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.themoscowtimes.com/";

TagNode node = cleaner.clean(new URL(siteUrl));


// serialize to xml file
new PrettyXmlSerializer(props).writeToFile(
    node , "cleaned.xml", "utf-8"
);

或

// serialize to html file
SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(htmlCleaner.getProperties());
serializer.writeToFile(node, "c:/temp/cleaned.html");

如何从HtmlCleaner获取已清理的html文件？

1 个答案: