我今天一直在努力解决这个问题,我不知道。
我想要的: 获取任何类型网站的标题和元描述。
将此信息保存到mysql中的utf表。
问题是什么? 不同的网站有不同的字符集,导致一些有中文,一些包含变音符号(德语),然后我们有俄语等等..
我已经尝试了preg_match,它适用于某些人而不适用于其他人,我尝试过DOMdocument,这与preg_match相同。
是否有任何课程可以做到这一点?
希望有人能提供帮助,谢谢。
答案 0 :(得分:0)
$data = file_get_contents( $url );
if( preg_match( '#title>([^<]+?)</title#', $data, $match ) ) {
$result['title'] = $match[1];
}
if( preg_match( '#name="description"[^>]+?content=('|")([^"']+?)#i', $data, $match ) ) {
$result['description'] = $match[2];
}
未经测试!只是快速写下来 - 打印_比赛,看看他们到底匹配等等。
将你的mysql表设置为latin1 - 这应该适用于所有类型的语言。 - 我从不照顾它,因为它在99%的时间都有效。