我正在尝试使用cURL检索远程HTML页面 - 但是,当我分析返回的文本时,我注意到很多像▀Ã
这样的奇怪字符,这让我觉得出了问题随着文本编码沿线的某处。
如何确保从cURL返回的文本已正确编码,如何对其进行规范化,以便我可以安全地将结果存储在数据库中而不会出现任何编码问题?
答案 0 :(得分:5)
我希望你已经将CURLOPT_ENCODING设置为“”并且页面中没有你看到的那些乱码,我可以建议的第二件事就是通过html实体之类的东西运行字符串来消毒它。 Curl只是获取/发布数据,恕我直言,不会更改编码
答案 1 :(得分:-1)
您需要在页面顶部添加以下内容:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">