字符编码问题

时间:2010-03-05 21:47:55

标签: c encoding character-encoding

我最近编辑的是一个Unicode编码的文本文件,其中还包含泰语字符(以及“普通”字符)。出于某种原因,在每个泰语字符序列之后,出现了一个新行。

在用C捣乱之后,尝试删除所有换行符,我启动了vim来检查文件。显然,在每个泰语字符序列之后,会出现一个“^ M”字符串(没有引号)。

为什么会发生这种情况,那是什么“^ M”?我发现我可以通过删除泰语字符串中的最后三个字符来解决问题,但肯定必须有更优雅的方法来解决这个问题......

1 个答案:

答案 0 :(得分:0)

这与文件中包含一些泰语字符的事实无关。 ^M('胡萝卜M')表示Microsoft(DOS)回车。 Dos2unix要在vim中编辑它之前删除这些文件。