我正在尝试将html编码的文本翻译成utf-8,将其放入我的数据库。 html_entity_decode或带有Translit的iconv都会遗漏大量的角色。
我已经写了一长串要删除的字符,但是现在我看到& Yuml没有翻译,但是& yuml是。
我确信还有其他类似的符号也被遗漏了。
有关如何最好地处理这些不一致的任何建议?并确保我正确地翻译每个角色?
答案 0 :(得分:1)
形式上的任何形式& blah;是(X)HTML中的实体引用;如果您需要确保全部使用它们,请确保您的最终UTF-8输出都不包含该模式。你也会在最后没有分号的情况下找到很多(但那里有许多误报)。
维基百科自然有一个list of HTML/XHTML/XML entity codes。您可以实现该(长)列表,并查看是否在野外找到任何其他列表。