我怎么能猜到html文档的字符集?

时间:2011-03-24 16:51:00

标签: html xml character-encoding html-parsing

一些格式错误且不完整的HTML页面没有分配给它们的字符集信息,我必须弄清楚如何显示它们。由于有几十种编码系统,我想知道是否有一种算法可以用来正确执行这项任务。有这样的事吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

尝试jchardetchsdet。 字符集检测具有概率性,因此在某些情况下可能出错,我几年前就已经成功使用了jchardet。