应用错误收集

html_entity_decode字符，如＆amp; Yumlvsÿ

时间：2009-08-18 21:32:57

标签： php character-encoding

我正在尝试将html编码的文本翻译成utf-8，将其放入我的数据库。 html_entity_decode或带有Translit的iconv都会遗漏大量的角色。

我已经写了一长串要删除的字符，但是现在我看到＆amp; Yuml没有翻译，但是＆amp; yuml是。

我确信还有其他类似的符号也被遗漏了。

有关如何最好地处理这些不一致的任何建议？并确保我正确地翻译每个角色？

1 个答案:

答案 0 :(得分：1)

形式上的任何形式＆amp; blah;是（X）HTML中的实体引用;如果您需要确保全部使用它们，请确保您的最终UTF-8输出都不包含该模式。你也会在最后没有分号的情况下找到很多（但那里有许多误报）。

维基百科自然有一个list of HTML/XHTML/XML entity codes。您可以实现该（长）列表，并查看是否在野外找到任何其他列表。