应用错误收集

字符编码问题

时间：2010-03-05 21:47:55

标签： c encoding character-encoding

我最近编辑的是一个Unicode编码的文本文件，其中还包含泰语字符（以及“普通”字符）。出于某种原因，在每个泰语字符序列之后，出现了一个新行。

在用C捣乱之后，尝试删除所有换行符，我启动了vim来检查文件。显然，在每个泰语字符序列之后，会出现一个“^ M”字符串（没有引号）。

为什么会发生这种情况，那是什么“^ M”？我发现我可以通过删除泰语字符串中的最后三个字符来解决问题，但肯定必须有更优雅的方法来解决这个问题......

1 个答案:

答案 0 :(得分：0)

这与文件中包含一些泰语字符的事实无关。 ^M（'胡萝卜M'）表示Microsoft（DOS）回车。 Dos2unix要在vim中编辑它之前删除这些文件。