字符串查找到未知的charset html内容

时间:2010-07-08 15:00:31

标签: php string find character-encoding

我正在使用strpos将字符串查找到网页正文中。虽然存在搜索字符串,但它失败了50%。 我试图strtolower搜索字符串和搜索内容,相同的结果。 可惜的是,在处理不同的字符集时会出现问题......

假设: - 搜索字符串字符集未知 - 搜索到的内容字符集未知 - charset可以是任何ISOxx,UTF-8,Shift-JIS

是否有防弹功能来查找子串?

2 个答案:

答案 0 :(得分:1)

您可以先尝试使用mb_detect_encoding检测编码,然后转换为您想要使用的编码(使用iconv或mb_convert_encoding)并搜索该编码中的模式。

答案 1 :(得分:0)

是首先将html转换为utf8 / latin1,从Content-Type标头或元标记中获取内容编码,使用iconv转换为utf8 / latin1,然后不再担心