如何使用不同CHARSET的网站在PHP中使用CURL获取网页标题?

时间:2010-12-13 08:05:33

标签: php curl character-encoding encode web-crawler

我想将标题存储在UTF-8中,但页面会出现许多不同的字符集,例如GBK,ISO,unicode ......

你可以给我一些帮助吗?

感谢。

1 个答案:

答案 0 :(得分:1)

识别或检测字符编码,并在必要时将数据转换为UTF-8。

对于HTML(即text / html),有three ways to specify the character encoding

  
      
  1. “Content-Type”字段中的HTTP“charset”参数。
  2.   
  3. META声明,其中“http-equiv”设置为“Content-Type”,值为“charset”设置。
  4.   
  5. 在指定外部资源的元素上设置charset属性。
  6.   

如果这些都不存在,您可能会进行一些内容嗅探或切换到某些默认字符编码(例如ISO 8859-1)。

如果识别/检测到的字符编码不是UTF-8,则可以使用iconvmb_convert_encoding将数据转换为UTF-8。