寻找罕见或保留的UTF-8代码,用于与文本内容无冲突

时间:2014-09-13 20:56:15

标签: algorithm utf-8

我有算法处理“通用UTF-8多语言大文本”,它需要使用从未在文本中使用过的“中性符号”。我首先选择了一个在我的文本编辑器上具有可视化表示的大型四字节UTF8,如171581(= F0 A9 B8 BD),但它不是“完美选择”,因为对文本(日语)语言创建了限制。 ..

有一个保留的UTF-8字符,它永远不会成为内容并且不是控件?

PS:我现在正在使用一个“安全”的EGYPTIAN HIEROGLYPH A044(),似乎是不错的选择,但我在编辑器上看不到。

1 个答案:

答案 0 :(得分:2)

(不要删除我在@Deduplicator评论答案的扩展名中的问题)

也许,甚至维基百科和PubMed Central(PMC)文章的所有内容都与这个“埃及的hierogliph字符没有关系......但是当我在谷歌搜索中使用它时,它会返回很多内容(~1830结果)。任何其他语言的任何其他字符都会出现同样的情况,例如“”或“ٲ”......“罕见使用”字符不是“从不使用”,“不含内容”的保证。

另一方面,如果我们使用维基百科,谷歌,PMC或任何其他“搜索UTF-8内容”引擎进行搜索,则无人返回“”的结果(F002)或“”(F003),因为它们不是“内容字符”,也不是某种可以破坏字符串的控件(例如NUL)。 “”和“”是PUA (Private Use Area) characteres示例。

如上所述,这里的“无关”(在这种问题中)取决于“内容”的概念。如果您认为您的字符串是“UTF-8内容”,那么任何PUA字符都将是最佳选择。