我正在构建这个爬虫,我抓取的文章内容不是英文的。然而,一旦我将内容存储到数据库中,html_entity_decode就无法正确完成工作,因此我得到了奇怪的字符而不是想要的字符。
这是我在该部分使用的代码行:
$content=html_entity_decode($content, ENT_COMPAT, 'UTF-8');
但是,如上所述,而不是获得此角色
ë
我得到了这个
ë
你能就这个问题提出建议吗?
答案 0 :(得分:0)
我基本上完成了以下链接中的步骤,它就像一个魅力。
答案 1 :(得分:0)
您可以使用此代码
$content = html_entity_decode($content, ENT_QUOTES);