在处理文本时,哪些Unicode控制字符是安全的?

时间:2018-01-12 09:00:58

标签: unicode

对于内部文本处理的一个阶段,我需要一个特殊字符。哪些控制字符(相对)安全使用,因为它们通常不会出现在文本中。

我指的是文字,因为它会出现在人类可读的文本文件和SE或维基百科等网站中。

示例:我假设0 + 0095(MW消息等待)和U + 0094(CCH取消字符,=删除最后一个字符)通常不存储在文本文件中,因为它们指的是传输。

反例:使用U + 000A(New Line,LF)是不明智的,因为这通常会出现在文本中。

Wikipedia列出了所有Control Codes

建议的答案(所以您的答案可以参考差异)

使用的代码:

  • U + 0000 NUL(可能用作字符串结尾字符)
  • U + 0009 HT Horizo​​ntan Tabulation
  • U + 000A LF换行
  • U + 000B VT垂直制表(虽然我从未见过它)
  • U + 000C FF Form Feed(例如,由RFC使用)
  • U + 000D CR回车
  • U + 001A SUB替代品(可用作EOF指示器)
  • U + 0082 BPH允许中断
  • U + 0083 NBH没有休息
  • U + 0085 NEL Next Line

但所有其他人看起来都很好(SO Shift Out,DC1 Device Control One,US Unit Separator,PU1 Private Use One,......)。

0 个答案:

没有答案