由 wget 归档的国际html文件 应该包含这样的字符
(例如希伯来语和泰语:) 的אב הם 和ยคน
相反,他们像这样保存: íäáåãéú和ÃÒ¡à§é
如何正确显示这些?
iconv filename.html iconv:位置1254的非法输入序列
已解决:没有错。 只有我没注意到默认的 php.ini 确实在http标头中设置了charset但是 使用这样的各种字符集 meta http-equiv =“Content-Type”content =“text / html; charset = windows-874”你需要设置: default_charset =“empty”; ....
答案 0 :(得分:1)
页面不是“像这样保存”,无论您使用什么来查看文件,都只是错误地解释编码。要知道文件的编码方式,您应该在下载过程中注意HTTP Content-Type
标头;现在已经不见了。
您唯一的另一个机会是解析<head>
中的等效HTML元标记,如果文档有一个。
否则,您只能猜测文档的编码。
有关更多必需的背景知识,请参阅What Every Programmer Absolutely, Positively Needs To Know About Encodings And Character Sets To Work With Text。