Question

我尝试使用Java或Python保存整个页面，我也尝试了Selenium和wget。最后，我选择了HtmlUnit，因为可以通过使用save（）轻松实现它。

我的页面被截断了，汉字显示为“？”。有什么办法可以改变编码？还是有其他工具可以保存整个页面？

我的代码：

public void DeleteUser()
{
     string userId = User.Identity.GetUserId();
     ApplicationUser LoggedUser = db.Users.Find(userId);

     db.Users.Remove(LoggedUser);

     AdditionalInfo info = db.AdditionalInfo.Find(userId); // Added this
     db.AdditionalInfo.Remove(info); // Added this

     db.SaveChanges();

}

结果：

    WebClient webClient = new WebClient();
    webClient.getOptions().setUseInsecureSSL(true);

    try {
        HtmlPage htmlPage = webClient.getPage("http://www.fulijr.com/");
        File file = new File("fulijr.html");
        htmlPage.save(file);
    } catch (IOException e) {
        e.printStackTrace();
    }

Answer 1

这是当前版本的HtmlUnit（2.33版）中的错误。已解决此问题；将在https://twitter.com/HtmlUnit上通知是否有新的快照版本。

使用HtmlUnit保存完整页面时文本被截断

1 个答案: