如何替换二进制文件中的unicode字符串?

时间:2015-01-21 08:24:28

标签: c# unicode

我一直试图让我的程序在二进制文件中替换unicode。 用户可以输入要查找的内容,如果可以找到,程序会找到并用特定的字符串替换它。

我已经四处寻找了,但是我找不到任何具体内容,我想要的是:

string text = File.ReadAllText(path, Encoding.Unicode);
text = text.Replace(userInput, specificString);
File.WriteAllText(path, text);

但任何以类似方式工作的东西都应该足够了。 但是,使用它会导致文件变得更大且无法使用。

我用:

int var = File.ReadAllText(path, Encoding.Unicode).Contains(userInput) ? 1 : 0;
if (var == 1)
{
    //Missing Part
}

用于检查文件是否包含用户输入的字符串,如果重要的话。

1 个答案:

答案 0 :(得分:1)

这只能在非常有限的情况下使用。不幸的是,你还没有提供足够的关于二进制文件性质的详细信息,任何人都可以知道这是否适用于你的情况。有几乎无穷无尽的各种二进制文件格式,如果修改单个字节,其中至少有一些会被渲染为无效,如果文件长度发生变化,则可能会使其中的许多文件无效(即插入点后的数据是不再是预期的地方。)

当然,许多二进制文件也是加密的,压缩的或两者兼而有之。在这种情况下,即使你通过一些奇迹找到你正在寻找的文本,它可能实际上并不代表该文本,修改它会使文件无法使用。

所有这一切都说,为了论证,让我们假设你的场景没有任何这些问题,完全可以完全替换在中间找到的一些文本。文件有一些完全不同的文字。

请注意,我们还需要对文本编码做出假设。文本可以用多种方式表示,您需要使用正确的编码,不仅要查找文本,还要确保替换文本有效。为了论证,让我们说你的文本被编码为UTF8。

现在我们拥有了所需的一切:

void ReplaceTextInFile(string fileName, string oldText, string newText)
{
    byte[] fileBytes = File.ReadAllBytes(fileName),
        oldBytes = Encoding.UTF8.GetBytes(oldText),
        newBytes = Encoding.UTF8.GetBytes(newText);

    int index = IndexOfBytes(fileBytes, oldBytes);

    if (index < 0)
    {
        // Text was not found
        return;
    }

    byte[] newFileBytes =
        new byte[fileBytes.Length + newBytes.Length - oldBytes.Length];

    Buffer.BlockCopy(fileBytes, 0, newFileBytes, 0, index);
    Buffer.BlockCopy(newBytes, 0, newFileBytes, index, newBytes.Length);
    Buffer.BlockCopy(fileBytes, index + oldBytes.Length,
        newFileBytes, index + newBytes.Length,
        fileBytes.Length - index - oldBytes.Length);

    File.WriteAllBytes(filename, newFileBytes);
}

int IndexOfBytes(byte[] searchBuffer, byte[] bytesToFind)
{
    for (int i = 0; i < searchBuffer.Length - bytesToFind.Length; i++)
    {
        bool success = true;

        for (int j = 0; j < bytesToFind.Length; j++)
        {
            if (searchBuffer[i + j] != bytesToFind[j])
            {
                success = false;
                break;
            }
        }

        if (success)
        {
            return i;
        }
    }

    return -1;
}

注意:

  • 以上是破坏性的。您可能只想在文件的副本上运行它,或者更喜欢修改代码,以便它需要一个附加参数来指定应该对其进行修改的 new 文件。
  • 此实现在内存中完成所有操作。这样更方便,但如果您正在处理大型文件,特别是如果您使用的是32位平台,则可能会发现需要以较小的块处理该文件。