使用HtmlUnit保存完整页面时文本被截断

时间:2018-11-23 10:13:33

标签: java python web-crawler

我尝试使用Java或Python保存整个页面,我也尝试了Selenium和wget。 最后,我选择了HtmlUnit,因为可以通过使用save()轻松实现它。

我的页面被截断了,汉字显示为“?”。 有什么办法可以改变编码?还是有其他工具可以保存整个页面?

我的代码:

public void DeleteUser()
{
     string userId = User.Identity.GetUserId();
     ApplicationUser LoggedUser = db.Users.Find(userId);

     db.Users.Remove(LoggedUser);

     AdditionalInfo info = db.AdditionalInfo.Find(userId); // Added this
     db.AdditionalInfo.Remove(info); // Added this

     db.SaveChanges();

}

结果:

    WebClient webClient = new WebClient();
    webClient.getOptions().setUseInsecureSSL(true);

    try {
        HtmlPage htmlPage = webClient.getPage("http://www.fulijr.com/");
        File file = new File("fulijr.html");
        htmlPage.save(file);
    } catch (IOException e) {
        e.printStackTrace();
    }

1 个答案:

答案 0 :(得分:1)

这是当前版本的HtmlUnit(2.33版)中的错误。已解决此问题;将在https://twitter.com/HtmlUnit上通知是否有新的快照版本。