C# - 检查文件是否基于文本

时间:2011-01-20 08:31:56

标签: c# file-io

如何使用FileStream测试我在C#中打开的文件是否为“文本类型”文件?我希望我的程序打开任何基于文本的文件,例如.txt,.html等。

但不要打开.doc或.pdf或.exe等等。

6 个答案:

答案 0 :(得分:10)

一般来说:没有办法说出来。

如果使用8位编码打开,以UTF-16格式存储的文本文件可能看起来像二进制文件。同样有人可以将文本文件保存为.doc(它是一个文档)。

虽然您可以打开文件并查看某些内容,但所有此类启发式操作有时会失败(例如,记事本尝试执行此操作,通过仔细选择几个字符,记事本会猜错并显示完全不同的内容)。 / p>

如果你有一个特定的场景,而不是能够打开和处理任何东西,你应该能够做得更好。

答案 1 :(得分:6)

我猜你可以检查前1000个(任意数字)字符,看看是否有不可打印的字符,或者它们是否都是某个范围内的ascii。如果是后者,假设它是文本?

无论你做什么都是猜测。

答案 2 :(得分:2)

要获取文件的实际类型,您必须检查其标题,即使修改了扩展名也不会更改。您可以获取标题列表here,并在代码中使用以下内容:

using(var stream = new FileStream(fileName, FileMode.Open, FileAccess.Read))
{
   using(var reader = new BinaryReader(stream))
   {
     // read the first X bytes of the file
     // In this example I want to check if the file is a BMP
     // whose header is 424D in hex(2 bytes 6677)
     string code = reader.ReadByte().ToString() + reader.ReadByte().ToString();
     if (code.Equals("6677"))
     {
        //it's a BMP file
     }
   }
}

答案 3 :(得分:1)

我有一个适用于我的下面的解决方案。这是检查所有类型的二进制文件的通用解决方案。

     /// <summary>
     /// This method checks whether selected file is Binary file or not.
     /// </summary>     
     public bool CheckForBinary()
     {

             Stream objStream = new FileStream("your file path", FileMode.Open, FileAccess.Read);
             bool bFlag = true;

             // Iterate through stream & check ASCII value of each byte.
             for (int nPosition = 0; nPosition < objStream.Length; nPosition++)
             {
                 int a = objStream.ReadByte();

                 if (!(a >= 0 && a <= 127))
                 {
                     break;            // Binary File
                 }
                 else if (objStream.Position == (objStream.Length))
                 {
                     bFlag = false;    // Text File
                 }
             }
             objStream.Dispose();

             return bFlag;                   
     }

答案 4 :(得分:0)

public bool IsTextFile(string FilePath)
  using (StreamReader reader = new StreamReader(FilePath))
  {
       int Character;
       while ((Character = reader.Read()) != -1)
       {
           if ((Character > 0 && Character < 8) || (Character > 13 && Character < 26))
           {
                    return false; 
           }
       }
  }
  return true;
}

答案 5 :(得分:0)

正如其他人指出的那样,没有绝对的方法可以确定。但是,某些实现检查连续NUL字符。 Git显然只是检查NUL的前8000个字符,如果找到,则将文件视为二进制。有关更多详细信息,请参见here

这是我写的一个类似的C#解决方案,它查找给定数量的所需连续NUL:

public bool IsBinary(string filePath, int requiredConsecutiveNul = 1)
{
    const int charsToCheck = 8000;
    const char nulChar = '\0';

    int nulCount = 0;

    using (var streamReader = new StreamReader(filePath))
    {
        for (var i = 0; i < charsToCheck; i++)
        {
            if (streamReader.EndOfStream)
                return false;

            if ((char) streamReader.Read() == nulChar)
            {
                nulCount++;

                if (nulCount >= requiredConsecutiveNul)
                    return true;
            }
            else
            {
                nulCount = 0;
            }
        }
    }

    return false;
}