file_get_contents()和西里尔文

时间:2015-05-09 13:33:00

标签: php regex utf-8

我正在尝试使用file_get_contents()函数获取网站的源代码,然后使用正则表达式查找某些内容,并将其显示在屏幕上。

问题是我要提取的数据是西里尔字母,当我查看输出时,它只是一些奇怪的字符:

[6]=> array(1) { [0]=> string(83) "ĐĄĐ ĐĐĐĐРТĐШĐĐĐĄĐĐĐ ĐĐĐ ĐĐŁĐĐĐ 28 " } }

我也尝试将源代码转换为UTF-8(我的所有文件都是utf-8),但我有很多这样的网站,每个网站都有不同的编码。

$source = @file_get_contents($url, false, $context);
$source = iconv(mb_detect_encoding($source), 'UTF-8', $source);

这是我尝试过的,但它不起作用。

iconv中手动设置源编码只会更改字符,但它仍然不是西里尔字母。

我该如何解决这个问题?

0 个答案:

没有答案