从html PHP中删除非标准字符

时间:2015-08-02 11:54:50

标签: php

我如何只删除 (使用curl获取数据)

$str = "Check this out <a href=�http://www.somewebsite.com�>Somewebsite</a>, this is a great website
Windows� (XP 32bit/Vista/7/8/8.1)";

我只想要 被删除。 我试过了

$output = preg_replace("/[^A-Za-z0-9]/","",$str);

它也删除了HTML ...但我想要html

1 个答案:

答案 0 :(得分:0)

而不是像这样做坏事,你应该修改你的字符集问题。您的问题很可能是您在应用程序/脚本的所有级别中都没有使用相同的字符编码。任何已经或可以设置为特定字符编码的东西都应设置为相同。最常见的是下面的。

  • 将文档保存为UTF-8(或没有BOM的UTF8)(如果您使用的是Notepad ++,它的格式 - &gt;转换为UFT-8或UTF8没有BOM)< / LI>
  • PHP和HTML中的标题应设置为UTF-8
    • HTML:<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />,位于文档中的<head> - 标记内。
    • PHP:header('Content-Type: text/html; charset=utf-8'); - 必须在任何输出之前设置PHP标头(没有HTML,没有空格,没有回显/打印 - 没有)。

还有其他方面可能需要设置为UTF-8,它取决于您使用的PHP函数类型等等。但上述情况通常是一个良好的开端。