我正在尝试使用file_get_contents()函数获取网站的源代码,然后使用正则表达式查找某些内容,并将其显示在屏幕上。
问题是我要提取的数据是西里尔字母,当我查看输出时,它只是一些奇怪的字符:
[6]=> array(1) { [0]=> string(83) "ĐĄĐ ĐĐĐĐРТĐШĐĐĐĄĐĐĐ ĐĐĐ ĐĐŁĐĐĐ 28 " } }
我也尝试将源代码转换为UTF-8(我的所有文件都是utf-8),但我有很多这样的网站,每个网站都有不同的编码。
$source = @file_get_contents($url, false, $context);
$source = iconv(mb_detect_encoding($source), 'UTF-8', $source);
这是我尝试过的,但它不起作用。
在iconv
中手动设置源编码只会更改字符,但它仍然不是西里尔字母。
我该如何解决这个问题?