Question

我今天一直在努力解决这个问题，我不知道。

我想要的：获取任何类型网站的标题和元描述。

将此信息保存到mysql中的utf表。

问题是什么？不同的网站有不同的字符集，导致一些有中文，一些包含变音符号（德语），然后我们有俄语等等..

我已经尝试了preg_match，它适用于某些人而不适用于其他人，我尝试过DOMdocument，这与preg_match相同。

是否有任何课程可以做到这一点？

希望有人能提供帮助，谢谢。

Answer 1

$data = file_get_contents( $url );
if( preg_match( '#title>([^<]+?)</title#', $data, $match ) ) {
    $result['title'] = $match[1];
}
if( preg_match( '#name="description"[^>]+?content=('|")([^"']+?)#i', $data, $match ) ) {
    $result['description'] = $match[2];
}

未经测试！只是快速写下来 - 打印_比赛，看看他们到底匹配等等。

将你的mysql表设置为latin1 - 这应该适用于所有类型的语言。 - 我从不照顾它，因为它在99％的时间都有效。

获取网站标题和描述，保存到utf8表，php / mysql

1 个答案: