我正在尝试解析一些网站的HTML。我有一些工作代码,但它不是很干净所以我重写了一点点使用DomDocument和XPath。
问题是由于DomDocument的一些错误或行为而导致特殊字符(变音符号和某些空格)被转换(请参阅:php DOMDocument - manipulating and encoding)。使用上面的线程答案中提到的黑客,我的变音符号会变得干净(猜测我需要使用hack :-()。但真正的问题是一些
空格仍在转换(转换为ASCII 194+ 160)。
为什么会发生这种情况的任何想法我如何解决它?
感谢。
答案 0 :(得分:0)
$ res = str_replace(array(chr(194),chr(160)),'',$ res);