我正在尝试将一个大文件(以逗号分隔,每个术语用双引号括起来)拆分成许多较小的文件,基于每个记录中第一个项的键,通常有多个记录具有相同的记录键。
这个大文件的范围可以从1GB到2GB,生成的文件数量可以在10,000-30,000之间,每个文件都在以密钥命名的子文件夹中。
在C#中,我在每一行上执行一个StreamReader.ReadLine(),将结果连接起来,直到它到达另一个键(发出前一个键的最后一个数据的信号),然后调用一个函数来异步写入文件。我正在调用windows排序来对这些文件进行排序以使密钥连续(因此我只需要打开一次文件)但是操作完成仍需要20分钟。有什么方法可以加快速度吗?
sfd = new SaveFileDataDelegate(this.SaveFileData);
private void CSVParse(string filename, string unzippedFilePath, string feedname)
{
StreamReader filestream = null;
FileStream readerStream = null;
try
{
readerStream = new FileStream(filename, FileMode.Open, FileAccess.Read, FileShare.None, 120000, FileOptions.SequentialScan);
filestream = new StreamReader(readerStream, Encoding.UTF8, false, 120000);
string tempstring = "";
string buffer = "";
string lastlotkey = "";
IAsyncResult result = null;
activityLog.Log("Parsing File: " + filename);
while (((tempstring = filestream.ReadLine()) != null) || buffer != "")
{
if (tempstring == null)
{
tempstring = "";
}
string lotkey = tempstring.Replace("\"","").Split(',').First();
if (lotkey == tempstring && tempstring != "")
{
break;
}
if (lotkey == "DealerID")
{
continue;
}
if (lastlotkey == "")
{
lastlotkey = lotkey;
}
if ((lotkey != lastlotkey && buffer.Length > 0))
{
result = sfd.BeginInvoke(outputDirectory + @"\" + feedname + @"\" + lastlotkey + @"\" + (filename.Split('\\').Last()).Split('.').First() + ".txt", buffer, outputDirectory + @"\" + feedname + @"\" + lastlotkey,null,null);
lastlotkey = lotkey;
buffer = "";
if (tempstring == "")
{
continue;
}
}
if (buffer.Length > 0)
{
buffer = buffer + "\r\n";
}
buffer = buffer + tempstring;
}
filestream.Close();
readerStream.Close();
if (result != null)
{
result.AsyncWaitHandle.WaitOne(-1);
}
return;
}
catch (Exception e)
{
activityLog.Log("Error Occurred: " + e.ToString());
if (filestream != null)
{
filestream.Close();
}
hadError = true;
return;
}
}
private void SaveFileData(string file, string buffer, string directory)
{
// create file from last lot key with data from parsing, write, close, update lastlotkey
Directory.CreateDirectory(directory);
FileStream fs = null;
StreamWriter temp = null;
try
{
if (!File.Exists(file))
{
fs = new FileStream(file, FileMode.OpenOrCreate, FileAccess.Write, FileShare.None, 120000);
}
else
{
fs = new FileStream(file, FileMode.Truncate, FileAccess.Write, FileShare.None, 120000);
}
temp = new StreamWriter(fs, Encoding.UTF8, 120000);
temp.AutoFlush = false;
temp.WriteLine(headerLine);
temp.Write(buffer);
temp.Flush();
temp.Close();
fs.Close();
}
catch (Exception e)
{
activityLog.Log("Error Occurred: " + e.ToString());
if (fs != null)
{
fs.Close();
}
if (temp != null)
{
temp.Close();
}
hadError = true;
return;
}
}
修改
我爬了堆栈溢出和互联网最深的内容,在逐行分析后我发现字符串连接实际上是解析例程的繁重工作(在文件复制和窗口排序之后),用Stringbuilder替换它取得了巨大的进步,总处理时间从20分钟(复制+排序+解析)下降到5分钟的复制+排序和2分钟的解析,总共7分钟。速度提升130%
答案 0 :(得分:0)
如果删除在硬盘上写入的代码,它的速度有多快? 很多放缓将是因为硬盘驱动器。得到一个ssd:P
由于你循环很多,我会限制循环内的代码。删除重复的代码,并在循环外获取尽可能多的代码。
第一个if不需要sicne你已经在那里检查null。
如果你有很多类似的线路,那么可能不需要一直进行拆分。你可以改用.StartsWith。
如果文件一致,则无需删除“。您可以与”进行比较。
因为你在第二个if中检查一个空的tempstring。也许你想在拆分之前这样做,因为拆分一个空字符串是没用的。
你可以在循环外完成许多用于获取新文件名的字符串操作。