HttpWebRequest req = (HttpWebRequest)HttpWebRequest.Create(baseurl + url);
req.Timeout = 1000 * 10;
HttpWebResponse response = (HttpWebResponse)req.GetResponse();
Stream str = response.GetResponseStream();
HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.Load(str);
response.Close();
string imgurl = doc.DocumentNode.SelectSingleNode("//div[@class='one-page']/a/img[@class='manga-page']").Attributes["src"].Value;
req = (HttpWebRequest)HttpWebRequest.Create(imgurl);
req.Timeout = 1000 * 10;
response = (HttpWebResponse)req.GetResponse();
str = response.GetResponseStream();
Image img = Image.FromStream(str);
response.Close();
return img;
我在一个循环中运行这个代码(使用几个线程)来下载大约4000个图像,并且它在前几百个中工作得很好但是然后(每次尝试时在不同的时间点)它突然停止工作,并且每次调用“req.GetResponse()”都会导致TimeoutException。我不知道为什么会发生这种情况,也不知道可能出现什么问题或如何处理它。任何帮助都将受到高度赞赏。
我用来运行这个函数的代码(它被称为GetPage(int)并被称为c.GetPage(t))如下:
for (int j = 0; j < 2; j++)
{
BackgroundWorker bw = new BackgroundWorker();
num[bw] = j;
bgs.Add(bw);
bw.DoWork += (object sender, DoWorkEventArgs doargs) =>
{
int t = -1;
lock (lockObjForQueueOperations)
{
if (images.Count != 0)
t = images.Dequeue();
}
if(t < 0)
{
doargs.Result = false;
return;
}
currently[sender] = t;
Image img;
try { img = c.GetPage(t); }
catch (Exception e)
{
lock (lockObjForQueueOperations)
{
images.Enqueue(t);
}
lock (Console.Title)
{
if (num[sender] == 0) Console.ForegroundColor = ConsoleColor.Cyan;
else if (num[sender] == 1) Console.ForegroundColor = ConsoleColor.Yellow;
Console.WriteLine("**ERR: Error fetshing page {0}, errormsg: {1}", t, e.Message);
Console.ForegroundColor = ConsoleColor.White;
}
doargs.Result = true;
Thread.Sleep(1000*2);
return;
}
lock (Console.Title)
{
if (num[sender] == 0) Console.ForegroundColor = ConsoleColor.Cyan;
else if (num[sender] == 1) Console.ForegroundColor = ConsoleColor.Yellow;
Console.WriteLine("\t\tLoaded page {0} of {1}.", t + 1, c.PagesCount);
Console.ForegroundColor = ConsoleColor.White;
}
string imgpath = Path.Combine(ndir, "Page " + (t + 1) + ".png");
img.Save(imgpath, System.Drawing.Imaging.ImageFormat.Png);
img.Dispose();
doargs.Result = true;
};
bw.RunWorkerCompleted += (object sender, RunWorkerCompletedEventArgs runargs) =>
{
if ((bool)runargs.Result) bw.RunWorkerAsync();
else
{
finnishedworkers++;
if (finnishedworkers == 2) restetter.Set();
bw.Dispose();
}
};
bw.RunWorkerAsync();
}
答案 0 :(得分:2)
HttpWebRequest中的Timeout属性以毫秒为单位。目前将其设置为10,000仅为10秒,根据带宽和所拉取数据的大小以及正在运行的代码的复杂性,这可能还不够。我说首先尝试增加它。
答案 1 :(得分:2)
你的设计不好。不要为每个请求创建线程,而是尝试调用BeginGetResponse。该框架将处理从线程池分配线程以服务您的请求。
将对ServicePointManager.SetDefaultConnectionLimit(?)的调用添加到100之类的数字中。
创建一个信号量,其计数与连接限制数相匹配。
在调用BeginGetResponse的函数中,在调用BeginGet之前添加对semaphore.WaitOne()的调用...
在你的EndGetResponse()处理程序中,调用semaphore.Release()以允许下一个请求继续。
您可能正在使用自己的所有线程耗尽线程池。监控您的流程,看看您是否无法执行,并且总共只使用5-10个线程。也许您可以记录Thread.Current.ThreadID以查看SAME线程如何处理多个请求。
完成了这十亿次的时间。真。