...以及为什么应改用UTF-8编码...

Question

我对C＃很陌生。我正在将VB中的内容转换为C＃。该语句的语法有问题：

if ((searchResult.Properties["user"].Count > 0))
{
    profile.User = System.Text.Encoding.UTF8.GetString(searchResult.Properties["user"][0]);
}

然后我看到以下错误：

参数1：无法从'object'转换为'byte []'

最佳重载方法匹配   'System.Text.Encoding.GetString（byte []）'有一些无效的参数

我尝试根据this帖子修复代码，但仍未成功

string User = Encoding.UTF8.GetString("user", 0);

有什么建议吗？

Answer 1

如果你已经有一个字节数组，那么你需要知道使用什么类型的编码来进入该字节数组。

例如，如果字节数组是这样创建的：

byte[] bytes = Encoding.ASCII.GetBytes(someString);

你需要把它变成这样的字符串：

string someString = Encoding.ASCII.GetString(bytes);

如果您可以在继承的代码中找到用于创建字节数组的编码，则应该设置。

Answer 2

首先，添加System.Text命名空间

using System.Text;

然后使用此代码

string input = "some text"; 
byte[] array = Encoding.ASCII.GetBytes(input);

希望能解决它！

Answer 3

您还可以使用Extension Method向string类型添加方法，如下所示：

static class Helper
{
   public static byte[] ToByteArray(this string str)
   {
      return System.Text.Encoding.ASCII.GetBytes(str);
   }
}

并使用如下：

string foo = "bla bla";
byte[] result = foo.ToByteArray();

Answer 4

static byte[] GetBytes(string str)
{
     byte[] bytes = new byte[str.Length * sizeof(char)];
     System.Buffer.BlockCopy(str.ToCharArray(), 0, bytes, 0, bytes.Length);
     return bytes;
}

static string GetString(byte[] bytes)
{
     char[] chars = new char[bytes.Length / sizeof(char)];
     System.Buffer.BlockCopy(bytes, 0, chars, 0, bytes.Length);
     return new string(chars);
}

Answer 5

var result = System.Text.Encoding.Unicode.GetBytes(text);

Answer 6

使用此

byte[] myByte= System.Text.ASCIIEncoding.Default.GetBytes(myString);

Answer 7

以下方法仅在字符为1个字节时才有效。（默认unicode不起作用，因为它是2个字节）

public static byte[] ToByteArray(string value)
{            
    char[] charArr = value.ToCharArray();
    byte[] bytes = new byte[charArr.Length];
    for (int i = 0; i < charArr.Length; i++)
    {
        byte current = Convert.ToByte(charArr[i]);
        bytes[i] = current;
    }

    return bytes;
}

保持简单

Answer 8

对JustinStolle编辑的改进（Eran Yogev使用BlockCopy）。

建议的解决方案确实比使用编码更快。问题是它不适用于编码长度不均匀的字节数组。如上所述，它引发了一个越界异常。当从字符串解码时，将长度增加1会留下一个尾随字节。

对我来说，当我想从DataTable到JSON进行编码时，就需要了。我一直在寻找一种方法将二进制字段编码为字符串，并从字符串解码回byte[]。

因此我创建了两个类 - 一个包含上述解决方案的类（当从字符串编码时很好，因为长度总是均匀），另一个处理byte[]编码。

我通过添加一个字符来解决不均匀长度问题，该字符告诉我二进制数组的原始长度是奇数（'1'）还是偶数（'0'）

如下：

public static class StringEncoder
{
    static byte[] EncodeToBytes(string str)
    {
        byte[] bytes = new byte[str.Length * sizeof(char)];
        System.Buffer.BlockCopy(str.ToCharArray(), 0, bytes, 0, bytes.Length);
        return bytes;
    }
    static string DecodeToString(byte[] bytes)
    {
        char[] chars = new char[bytes.Length / sizeof(char)];
        System.Buffer.BlockCopy(bytes, 0, chars, 0, bytes.Length);
        return new string(chars);
    }
}

public static class BytesEncoder
{
    public static string EncodeToString(byte[] bytes)
    {
        bool even = (bytes.Length % 2 == 0);
        char[] chars = new char[1 + bytes.Length / sizeof(char) + (even ? 0 : 1)];
        chars[0] = (even ? '0' : '1');
        System.Buffer.BlockCopy(bytes, 0, chars, 2, bytes.Length);

        return new string(chars);
    }
    public static byte[] DecodeToBytes(string str)
    {
        bool even = str[0] == '0';
        byte[] bytes = new byte[(str.Length - 1) * sizeof(char) + (even ? 0 : -1)];
        char[] chars = str.ToCharArray();
        System.Buffer.BlockCopy(chars, 2, bytes, 0, bytes.Length);

        return bytes;
    }
}

Answer 9

有没有人看到任何理由不这样做？

mystring.Select(Convert.ToByte).ToArray()

Answer 10

如果'searchResult.Properties [“ user”] [0]'的结果是字符串：

if ( ( searchResult.Properties [ "user" ].Count > 0 ) ) {

   profile.User = System.Text.Encoding.UTF8.GetString ( searchResult.Properties [ "user" ] [ 0 ].ToCharArray ().Select ( character => ( byte ) character ).ToArray () );

}

关键是可以使用LINQ将字符串转换为字节[]：

.ToCharArray ().Select ( character => ( byte ) character ).ToArray () )

相反：

.Select ( character => ( char ) character ).ToArray () )

Answer 11

为什么编码。不应使用默认值...

@Randall的答案使用Encoding.Default，但是Microsoft提出了a warning against it：

不同的计算机可以使用不同的编码作为默认编码，并且默认编码可以在一台计算机上更改。如果您使用默认编码来编码和解码计算机之间流式传输的数据或在同一台计算机上的不同时间检索的数据，则可能会错误地转换该数据。此外，由Default属性返回的编码使用最适合的后备方式将不支持的字符映射到代码页支持的字符。由于这些原因，不建议使用默认编码。为确保已编码的字节正确解码，应使用Unicode编码，例如UTF8Encoding或UnicodeEncoding。您还可以使用更高级别的协议来确保使用相同的格式进行编码和解码。

要检查默认编码是什么，请使用Encoding.Default.WindowsCodePage（在我的情况下为1250-很遗憾，没有预定义的CP1250编码类，但是可以将对象检索为Encoding.GetEncoding(1250)）。 / p>

Encoding.ASCII是7位的，因此在我的情况下也无效：

byte[] pass = Encoding.ASCII.GetBytes("šarže");
Console.WriteLine(Encoding.ASCII.GetString(pass)); // ?ar?e

...以及为什么应改用UTF-8编码...

默认编码具有误导性：.NET在任何地方都使用UTF-8作为真正的默认值（到20世纪末8位编码已过时，请检查Console.OutputEncoding.EncodingName *），因此您在代码中定义的每个常量都是默认情况下采用UTF-8编码-因此，除非数据源使用不同的编码，否则应使用此编码。

^{*在我的情况下，这是UTF-8，这是直接的谎言：来自Windows控制台（cmd）的chcp返回852-不应更改此值，因为本地化的系统命令（例如ping）将此代码页进行硬编码}

遵循Microsoft的建议：

var utf8 = new UTF8Encoding();
byte[] pass = utf8.GetBytes("šarže");
Console.WriteLine(utf8.GetString(pass)); // šarže

其他人推荐的

Encoding.UTF8是uf UTF-8编码的实例，也可以直接使用或用作

var utf8 = Encoding.UTF8 as UTF8Encoding;

...但是并不总是使用

在西方国家，字节数组的编码在Unicode中应该“可以正常使用”，但是，一旦将程序移到一些不受支持的地区（例如中欧），那真是一团糟：在捷克共和国，我们使用Windows控制台的MS非标准852（又名Latin-2），Windows OEM为1250，.NET（及其他）为UTF-8（65001）的新默认设置，我们应记住，某些西欧8bit数据仍在1252，而旧的8位西方标准是ISO-8859-2（又名Latin-2，但实际上与852不是相同的Latin-2）。使用ASCII意味着充满豆腐和'？'的文本这里。因此，直到21世纪上半叶，请显式设置。

Answer 12

这个问题已经被回答了很多次，但是在C＃7.2和Span类型的引入下，有一种更快的方法可以在不安全的代码中实现：

public static class StringSupport
{
    private static readonly int _charSize = sizeof(char);

    public static unsafe byte[] GetBytes(string str)
    {
        if (str == null) throw new ArgumentNullException(nameof(str));
        if (str.Length == 0) return new byte[0];

        fixed (char* p = str)
        {
            return new Span<byte>(p, str.Length * _charSize).ToArray();
        }
    }

    public static unsafe string GetString(byte[] bytes)
    {
        if (bytes == null) throw new ArgumentNullException(nameof(bytes));
        if (bytes.Length % _charSize != 0) throw new ArgumentException($"Invalid {nameof(bytes)} length");
        if (bytes.Length == 0) return string.Empty;

        fixed (byte* p = bytes)
        {
            return new string(new Span<char>(p, bytes.Length / _charSize));
        }
    }
}

请记住，这些字节代表UTF-16编码的字符串（在C＃语言中称为“ Unicode”）。

一些快速基准测试表明，上述方法比中型字符串（30至50个字符）的Encoding.Unicode.GetBytes（...）/ GetString（...）实现快大约5倍，而对于大弦。这些方法似乎也比将指针与Marshal.Copy（..）或Buffer.MemoryCopy（...）结合使用要快。

Answer 13

您可以使用MemoryMarshal API进行非常快速有效的转换。 String将隐式转换为ReadOnlySpan<byte>，因为MemoryMarshal.Cast接受Span<byte>或ReadOnlySpan<byte>作为输入参数。

public static class StringExtensions
{
    public static byte[] ToByteArray(this string s) => s.ToByteSpan().ToArray(); //  heap allocation, use only when you cannot operate on spans
    public static ReadOnlySpan<byte> ToByteSpan(this string s) => MemoryMarshal.Cast<char, byte>(s);
}

以下基准显示差异：

Input: "Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s,"

|                       Method |       Mean |     Error |    StdDev |  Gen 0 | Gen 1 | Gen 2 | Allocated |
|----------------------------- |-----------:|----------:|----------:|-------:|------:|------:|----------:|
| UsingEncodingUnicodeGetBytes | 160.042 ns | 3.2864 ns | 6.4099 ns | 0.0780 |     - |     - |     328 B |
| UsingMemoryMarshalAndToArray |  31.977 ns | 0.7177 ns | 1.5753 ns | 0.0781 |     - |     - |     328 B |
|           UsingMemoryMarshal |   1.027 ns | 0.0565 ns | 0.1630 ns |      - |     - |     - |         - |

Answer 14

这项工作对我来说很重要，之后我可以将图片转换为数据库中的BYtea字段。

using (MemoryStream s = new MemoryStream(DirEntry.Properties["thumbnailphoto"].Value as byte[]))
{
    return s.ToArray();
}

Answer 15

在Ali's answer的基础上，我建议一种扩展方法，该方法允许您有选择地传递要使用的编码：

using System.Text;
public static class StringExtensions
{
    /// <summary>
    /// Creates a byte array from the string, using the 
    /// System.Text.Encoding.Default encoding unless another is specified.
    /// </summary>
    public static byte[] ToByteArray(this string str, Encoding encoding = Encoding.Default)
    {
        return encoding.GetBytes(str);
    }
}

并按如下所示使用它：

string foo = "bla bla";

// default encoding
byte[] default = foo.ToByteArray();

// custom encoding
byte[] unicode = foo.ToByteArray(Encoding.Unicode);

Answer 16

这对我有用

byte[] bytes = Convert.FromBase64String(textString);

Answer 17

这个已经回答了很多，但对我来说，唯一有效的方法就是这个：

    public static byte[] StringToByteArray(string str)
    {
        byte[] array = Convert.FromBase64String(str);
        return array;
    }

在C＃中将字符串转换为字节数组

17 个答案:

为什么编码。不应使用默认值...

...以及为什么应改用UTF-8编码...

...但是并不总是使用