我有一个愚蠢的问题。我正在从磁盘读取一些.cs文件。 用我制作的.net程序对它们进行大量的正则表达式和其他操作。 然后将它们写回光盘。
生成的文件以某种方式得到错误的编码。什么编码是c#源文件?然后有第一个字节顺序的东西,需要吗? 当我使用File.WriteAllText()时会写出来吗?
更改文件的程序是一个简单的.net应用程序,代码只是
string text = System.IO.File.ReadAllText(fn);
string newText = Regex.Replace(text, regexStr, replaceStr);
System.IO.File.WriteAllText(fn, newText);
c#文件有注释,字符串似乎不属于标准代码页。
其中一个有问题的人物是“ä”
解决方案:
这似乎工作正常
string text = System.IO.File.ReadAllText(fn, Encoding.GetEncoding(1252));
string newText = Regex.Replace(text, regexStr, replaceStr);
System.IO.File.WriteAllText(fn, newText, Encoding.GetEncoding(1252));
答案 0 :(得分:2)
System.IO.File.ReadAllText(fn)
尝试猜测输入文件的编码。这可能是非常错误的。
Visual Studio 2008默认以UTF-8创建文件。同样,您应该尝试在可能的情况下使用UTF-8,方法是在将文件写入磁盘时指定Encoding.UTF8Encoding
。
答案 1 :(得分:1)
默认情况下,文件应使用在本机区域设置中设置的相同代码页进行编码。默认情况下,这将是'Unicode(带签名的UTF-8) - 代码页65001'您可以使用任何您想要的代码页,例如您也可以使用'西欧(Windows) - 代码页1252'。
答案 2 :(得分:0)
我在我的时间里写了几个代码,并且总是使用ASCII编码(普通的Windows文本)。您使用什么语言对CS文件执行正则表达式操作?