.NET C# - 文本文件中的随机访问 - 没有简单的方法吗?

时间:2008-11-05 16:10:44

标签: c# text streamreader random-access

我有一个文本文件,其中包含几个“记录”。每条记录都包含一个名称和一组数字作为数据。

我正在尝试构建一个将读取文件的类,仅显示所有记录的名称,然后允许用户选择他/她想要的记录数据。

第一次浏览文件时,我只读取标题名称,但我可以跟踪标题所在文件中的“位置”。我需要随机访问文本文件,以便在用户请求后查找每条记录的开头。

我必须这样做,因为文件太大而无法完全在内存中读取(1GB +)以满足应用程序的其他内存需求。

我尝试使用.NET StreamReader类来实现这一点(它提供了非常容易使用的'ReadLine'功能,但是没有办法捕获文件的真实位置(BaseStream属性中的位置是倾斜的)由于该类使用的缓冲区。)

在.NET中没有简单的方法吗?

9 个答案:

答案 0 :(得分:13)

提供了一些很好的答案,但我找不到一些可以在我非常简单的情况下工作的源代码。在这里,它希望它能节省别人我花在搜索周围的时间。

我所指的“非常简单的情况”是:文本编码是固定宽度的,并且整个文件中的行结束字符是相同的。这段代码适用于我的情况(我正在解析一个日志文件,我有时必须在文件中寻找,然后再回来。我实现的就是我需要做的事情(例如:只有一个构造函数) ,并且只覆盖ReadLine()),所以很可能你需要添加代码......但我认为这是一个合理的起点。

public class PositionableStreamReader : StreamReader
{
    public PositionableStreamReader(string path)
        :base(path)
        {}

    private int myLineEndingCharacterLength = Environment.NewLine.Length;
    public int LineEndingCharacterLength
    {
        get { return myLineEndingCharacterLength; }
        set { myLineEndingCharacterLength = value; }
    }

    public override string ReadLine()
    {
        string line = base.ReadLine();
        if (null != line)
            myStreamPosition += line.Length + myLineEndingCharacterLength;
        return line;
    }

    private long myStreamPosition = 0;
    public long Position
    {
        get { return myStreamPosition; }
        set
        {
            myStreamPosition = value;
            this.BaseStream.Position = value;
            this.DiscardBufferedData();
        }
    }
}

以下是如何使用PositionableStreamReader的示例:

PositionableStreamReader sr = new PositionableStreamReader("somepath.txt");

// read some lines
while (something)
    sr.ReadLine();

// bookmark the current position
long streamPosition = sr.Position;

// read some lines
while (something)
    sr.ReadLine();

// go back to the bookmarked position
sr.Position = streamPosition;

// read some lines
while (something)
    sr.ReadLine();

答案 1 :(得分:7)

FileStream具有seek()方法。

答案 2 :(得分:5)

您可以使用System.IO.FileStream而不是StreamReader。如果您确切知道什么文件包含(例如编码),您可以像使用StreamReader一样执行所有操作。

答案 3 :(得分:5)

如果您对数据文件的编写方式很灵活,并且不介意它对文本编辑器不太友好,那么您可以使用BinaryWriter编写记录:

using (BinaryWriter writer = 
    new BinaryWriter(File.Open("data.txt", FileMode.Create)))
{
    writer.Write("one,1,1,1,1");
    writer.Write("two,2,2,2,2");
    writer.Write("three,3,3,3,3");
}

然后,最初读取每条记录很简单,因为您可以使用BinaryReader的ReadString方法:

using (BinaryReader reader = new BinaryReader(File.OpenRead("data.txt")))
{
    string line = null;
    long position = reader.BaseStream.Position;
    while (reader.PeekChar() > -1)
    {
        line = reader.ReadString();

        //parse the name out of the line here...

        Console.WriteLine("{0},{1}", position, line);
        position = reader.BaseStream.Position;
    }
}

BinaryReader没有缓冲,因此您可以获得适当的存储位置并在以后使用。唯一的麻烦就是解析该行之外的名称,无论如何,您可能需要使用StreamReader。

答案 4 :(得分:2)

编码是固定大小的(例如ASCII或UCS-2)吗?如果是这样,你可以跟踪字符索引(根据你看到的字符数),并根据它找到二进制索引。

否则,不 - 你基本上需要编写自己的StreamReader实现,它可以让你查看二进制索引。很遗憾StreamReader没有实现这一点,我同意。

答案 5 :(得分:1)

我认为FileHelpers库运行时记录功能可能对您有所帮助。 http://filehelpers.sourceforge.net/runtime_classes.html

答案 6 :(得分:1)

可能感兴趣的一些项目。

1)如果行是一组固定长度的字符,如果字符集具有可变大小(如UTF-8),那么这不是必要的有用信息。所以检查你的角色集。

2)你可以通过使用BaseStream.Position值确定StreamReader中文件光标的确切位置 IF 你先刷新()缓冲区(这将迫使当前位置在下一次读取将开始 - 读取最后一个字节后的一个字节。)

3)如果您事先知道每条记录的确切长度将是相同的字符数,并且字符集使用固定宽度的字符(因此每行的长度都是相同的字节数),您可以使用FileStream具有固定的缓冲区大小以匹配行的大小,并且每次读取结束时光标的位置将是下一行的开头。

4)是否有任何特殊原因,如果行长度相同(假设以字节为单位),则不要简单地使用行号并根据行大小x行号计算文件中的字节偏移量?

答案 7 :(得分:0)

您确定该文件“太大”吗?你有没有尝试过它并导致问题?

如果您分配了大量内存,而您现在没有使用它,Windows只会将其交换到磁盘。因此,通过从“内存”访问它,您将完成您想要的 - 随机访问磁盘上的文件。

答案 8 :(得分:0)

2006年在这里提出了这个确切的问题:http://www.devnewsgroups.net/group/microsoft.public.dotnet.framework/topic40275.aspx

要点:

“问题是StreamReader缓冲数据,因此返回的值 BaseStream.Position属性总是在实际处理的行之前。“

但是,“如果文件采用固定宽度的文本编码进行编码,则可以跟踪已读取的文本数量并将其乘以宽度”

如果没有,你可以使用FileStream并一次读取一个char,然后BaseStream.Position属性应该是正确的