我想从HTML文件中删除无效字符,该文件从Web获取以更改为XML格式。
我无法更改源代码,手动操作不是一个选项,因为我每天必须处理数百个文件。
我一直表现良好,直到某些HTML文件显示出一个使代码无效的特殊字符。
当我加载假装的XML文件时,我从浏览器中获得警告
"This page contains the following errors:
error on line 137 at column 1: PCDATA invalid Char value 7
Below is a rendering of the page up to the first error."
在使用文本编辑器挖掘无效字符后,我发现:⟩,一个显然命名为&rang, &lang的字符,或者●,这导致了问题。
我试图用PHP删除它但不起作用。
//create arrays
$find = array ('# #','#list#','#⟩#');
$replace = array ('','','');
//replace with array values
$list = preg_replace($find, $replace, $boletin_saveAsXml);
任何建议将不胜感激:)