标签: html xml character-encoding html-parsing
一些格式错误且不完整的HTML页面没有分配给它们的字符集信息,我必须弄清楚如何显示它们。由于有几十种编码系统,我想知道是否有一种算法可以用来正确执行这项任务。有这样的事吗?
谢谢!
答案 0 :(得分:1)
尝试jchardet或chsdet。 字符集检测具有概率性,因此在某些情况下可能出错,我几年前就已经成功使用了jchardet。