我有一个文本文件,其中包含几个“记录”。每条记录都包含一个名称和一组数字作为数据。
我正在尝试构建一个将读取文件的类,仅显示所有记录的名称,然后允许用户选择他/她想要的记录数据。
第一次浏览文件时,我只读取标题名称,但我可以跟踪标题所在文件中的“位置”。我需要随机访问文本文件,以便在用户请求后查找每条记录的开头。
我必须这样做,因为文件太大而无法完全在内存中读取(1GB +)以满足应用程序的其他内存需求。
我尝试使用.NET StreamReader类来实现这一点(它提供了非常容易使用的'ReadLine'功能,但是没有办法捕获文件的真实位置(BaseStream属性中的位置是倾斜的)由于该类使用的缓冲区。)
在.NET中没有简单的方法吗?
答案 0 :(得分:13)
提供了一些很好的答案,但我找不到一些可以在我非常简单的情况下工作的源代码。在这里,它希望它能节省别人我花在搜索周围的时间。
我所指的“非常简单的情况”是:文本编码是固定宽度的,并且整个文件中的行结束字符是相同的。这段代码适用于我的情况(我正在解析一个日志文件,我有时必须在文件中寻找,然后再回来。我实现的就是我需要做的事情(例如:只有一个构造函数) ,并且只覆盖ReadLine()),所以很可能你需要添加代码......但我认为这是一个合理的起点。
public class PositionableStreamReader : StreamReader
{
public PositionableStreamReader(string path)
:base(path)
{}
private int myLineEndingCharacterLength = Environment.NewLine.Length;
public int LineEndingCharacterLength
{
get { return myLineEndingCharacterLength; }
set { myLineEndingCharacterLength = value; }
}
public override string ReadLine()
{
string line = base.ReadLine();
if (null != line)
myStreamPosition += line.Length + myLineEndingCharacterLength;
return line;
}
private long myStreamPosition = 0;
public long Position
{
get { return myStreamPosition; }
set
{
myStreamPosition = value;
this.BaseStream.Position = value;
this.DiscardBufferedData();
}
}
}
以下是如何使用PositionableStreamReader的示例:
PositionableStreamReader sr = new PositionableStreamReader("somepath.txt");
// read some lines
while (something)
sr.ReadLine();
// bookmark the current position
long streamPosition = sr.Position;
// read some lines
while (something)
sr.ReadLine();
// go back to the bookmarked position
sr.Position = streamPosition;
// read some lines
while (something)
sr.ReadLine();
答案 1 :(得分:7)
FileStream具有seek()方法。
答案 2 :(得分:5)
您可以使用System.IO.FileStream而不是StreamReader。如果您确切知道什么文件包含(例如编码),您可以像使用StreamReader一样执行所有操作。
答案 3 :(得分:5)
如果您对数据文件的编写方式很灵活,并且不介意它对文本编辑器不太友好,那么您可以使用BinaryWriter编写记录:
using (BinaryWriter writer =
new BinaryWriter(File.Open("data.txt", FileMode.Create)))
{
writer.Write("one,1,1,1,1");
writer.Write("two,2,2,2,2");
writer.Write("three,3,3,3,3");
}
然后,最初读取每条记录很简单,因为您可以使用BinaryReader的ReadString方法:
using (BinaryReader reader = new BinaryReader(File.OpenRead("data.txt")))
{
string line = null;
long position = reader.BaseStream.Position;
while (reader.PeekChar() > -1)
{
line = reader.ReadString();
//parse the name out of the line here...
Console.WriteLine("{0},{1}", position, line);
position = reader.BaseStream.Position;
}
}
BinaryReader没有缓冲,因此您可以获得适当的存储位置并在以后使用。唯一的麻烦就是解析该行之外的名称,无论如何,您可能需要使用StreamReader。
答案 4 :(得分:2)
编码是固定大小的(例如ASCII或UCS-2)吗?如果是这样,你可以跟踪字符索引(根据你看到的字符数),并根据它找到二进制索引。
否则,不 - 你基本上需要编写自己的StreamReader实现,它可以让你查看二进制索引。很遗憾StreamReader没有实现这一点,我同意。
答案 5 :(得分:1)
我认为FileHelpers库运行时记录功能可能对您有所帮助。 http://filehelpers.sourceforge.net/runtime_classes.html
答案 6 :(得分:1)
可能感兴趣的一些项目。
1)如果行是一组固定长度的字符,如果字符集具有可变大小(如UTF-8),那么这不是必要的有用信息。所以检查你的角色集。
2)你可以通过使用BaseStream.Position值确定StreamReader中文件光标的确切位置 IF 你先刷新()缓冲区(这将迫使当前位置在下一次读取将开始 - 读取最后一个字节后的一个字节。)
3)如果您事先知道每条记录的确切长度将是相同的字符数,并且字符集使用固定宽度的字符(因此每行的长度都是相同的字节数),您可以使用FileStream具有固定的缓冲区大小以匹配行的大小,并且每次读取结束时光标的位置将是下一行的开头。
4)是否有任何特殊原因,如果行长度相同(假设以字节为单位),则不要简单地使用行号并根据行大小x行号计算文件中的字节偏移量?
答案 7 :(得分:0)
您确定该文件“太大”吗?你有没有尝试过它并导致问题?
如果您分配了大量内存,而您现在没有使用它,Windows只会将其交换到磁盘。因此,通过从“内存”访问它,您将完成您想要的 - 随机访问磁盘上的文件。
答案 8 :(得分:0)
2006年在这里提出了这个确切的问题:http://www.devnewsgroups.net/group/microsoft.public.dotnet.framework/topic40275.aspx
要点:
“问题是StreamReader缓冲数据,因此返回的值 BaseStream.Position属性总是在实际处理的行之前。“
但是,“如果文件采用固定宽度的文本编码进行编码,则可以跟踪已读取的文本数量并将其乘以宽度”
如果没有,你可以使用FileStream并一次读取一个char,然后BaseStream.Position属性应该是正确的