我有以下算法,
private void writetodb()
{
using(var reader = File.OpenRead("C:\Data.csv");
using(var parser = new TextFieldParser(reader))
{
//Do some opeartions
while(!parser.EndOfData)
{
//Do operations
//Take 500 rows of data and put it in dataset
Thread thread = new thread(() => WriteTodb(tablename, set));
thread.Start();
Thread.Sleep(5000);
}
}
}
public void WriteTodb(string table, CellSet set)
{
//WriteToDB
//Edit: This statement will write to hbase db in hdinsight
hbase.StoreCells(TableName, set);
}
这种方法在 500 mb的数据之前一直很好,但之后却没有说Out of memory exception
。
我非常确定这是因为线程,但使用线程是强制性的,我不能改变架构 任何人都可以告诉我在上面的程序中我必须在线程编程中进行哪些修改以避免内存异常。
答案 0 :(得分:5)
首先,我无法理解你关于线程的说法:
我必须在上面的程序中进行线程编程以避免 记忆异常。
如果使用TPL
,您将使用线程编程,如已经建议的那样。如果你无法理解它,你真的不必使用Thread
类。您说您的代码为C# 4.0
,因此TPL
是您的选项。你可以做这样的事情(非常简单的方法):
List<Task> tasks = new List<Task>();
while(!parser.EndOfData)
{
tasks.Add(Task.Run(() => WriteTodb(tablename, set)));
}
Task.WaitAll(tasks.ToArray());
TPL引擎将使用默认的TaskScheduler
类,它使用内部ThreadPool
并可以对服务器上的资源进行调平。
此外,我发现您使用的是Microsoft的HBase
客户端,其中包含it has async
method:
public async Task StoreCellsAsync(string table, CellSet cells)
{
}
所以你可以use the asynchronious approach in your code and TPL
at the same time:
List<Task> tasks = new List<Task>();
while(!parser.EndOfData)
{
tasks.Add(WriteTodb(tablename, set)));
}
// asynchroniously await all the writes
await Task.WhenAll(tasks.ToArray());
public async Task WriteTodb(string table,CellSet set)
{
//WriteToDB
//Edit: This statement will write to hbase db in hdinsight asynchroniously!
await hbase.StoreCellsAsync(TableName, set);
}
如果由于某些奇怪的原因,您无法使用TPL
,则必须重构代码并编写自己的线程调度程序:
答案 1 :(得分:0)
不是每次都使用ThreadPool.QueueUserWorkItem创建新的Thread。如需参考,请参阅:https://msdn.microsoft.com/en-us/library/kbf0f1ct(v=vs.110).aspx