我对此非常陌生,所以请原谅任何无知。
我创建了我的第一个多线程应用程序,它的目的是制作大量的webrequest,解析每个页面源,并将结果存储在表中以便进一步查询。从理论上讲,可能会有多达30-40000个请求,因此需要多线程。每个请求都有一个帖子。我认为一切正常,除了我经常只得到一个非常局部的页面源。这几乎就像StreamReader在读取响应时被打断一样。我转到具有相同请求的浏览器并获取整个页面。我认为它可能与线程有关,虽然我认为我仍在同步进行调用。 (理想情况下,我想异步进行调用,但我不知道如何去做。)有没有办法知道页面源是否完整,以确定是否再次请求?我相信这里有一些我很遗憾的复杂情况。任何代码的任何帮助将不胜感激。
抱歉格式化。下面是发出请求的类的代码的一部分:
using System;
using System.Collections.Generic;
using System.Text;
using System.Data.Sql;
using System.Data.SqlClient;
using System.Threading;
using System.IO;
using System.Net;
using System.Text.RegularExpressions;
namespace M4EverCrawler
{
public class DomainRun
{
public void Start()
{
new Thread(new ThreadStart(this.Run1)).Start();
new Thread(new ThreadStart(this.Run2)).Start();
new Thread(new ThreadStart(this.Run3)).Start();
}
public DomainRun(DNQueueManager dnq, ProxyQueueManager prxQ)
{
dnqManager = dnq;
ProxyManager = prxQ;
}
private DNQueueManager dnqManager;
private ProxyQueueManager ProxyManager;
public StagingQueue StagingQueue = new StagingQueue();
public MetricsQueueManager MQmanager = new MetricsQueueManager();
public CommitQueueManager CQmanager = new CommitQueueManager();
protected void Run1()
{
dnqManager.LoadDNs();
ProxyManager.LoadProxies();
while (true)
{
if (dnqManager.IsDNDavailable)
{
DomainData dnd = dnqManager.GetDND();
dnd.PageSource = CapturePage(dnd.DomainName);
StagingQueue.AddDN2Q(dnd);
}
Thread.Sleep(new Random().Next(20));
}
}
protected void Run2()
{
while (true)
{
if (StagingQueue.IsDNDavailable)
{
DomainData dnd = StagingQueue.GetDND();
MaxOutboundLinks = 3;
AvoidHttps = true;
InsideLinks = false;
VerifyBackLinks = true;
MQmanager.AddDN2Q(ParsePage(dnd));
foreach (string link in dnd.Hlinks)
{
DomainData dndLink = new DomainData(dnd.MainSeqno,link.ToString());
dndLink.ParentDomainName = dnd.DomainName;
dnd.PageSource = String.Empty;
MQmanager.AddDN2Q(dndLink);
}
}
Thread.Sleep(new Random().Next(20));
}
}
protected void Run3()
{
while (true)
{
if (MQmanager.IsDNDavailable)
{
DomainData dnd = MQmanager.GetDND();
RunAlexa(dnd);
RunCompete(dnd);
RunQuantcast(dnd);
CQmanager.AddDN2Q(dnd, MQmanager, 1000);
}
Thread.Sleep(new Random().Next(20));
}
}
private string CapturePage(string URIstring)
{
Uri myUri;
try
{
myUri = new Uri(URIstring);
}
catch (Exception URIex)
{
return String.Empty;
}
string proxyIP = ProxyManager.GetCurrentProxy() == "" ? ProxyManager.GetProxy() : ProxyManager.GetCurrentProxy();
int proxCtr = 0;
HttpWebRequest request = (HttpWebRequest)WebRequest.Create(myUri);
WebProxy Proxy = new WebProxy(proxyIP);
request.Proxy = Proxy;
request.Timeout = 20000;
try
{
using (HttpWebResponse response = (HttpWebResponse)request.GetResponse())
{
using (StreamReader strmRdr = new StreamReader(response.GetResponseStream(), Encoding.ASCII))
{
return strmRdr.ReadToEnd();
}
}
}
catch (InvalidOperationException Wex)
{
. . .
}
}
答案 0 :(得分:2)
您正在使用具有ASCII编码的StreamReader。如果服务器发送的数据没有有效的ASCII编码,则StreamReader不会将数据正确写入字符串。
请注意,服务器可能会明确地将页面编码放在响应标头上,或者在页面内容本身中使用META标记。</ p>
以下页面介绍了如何使用正确的编码下载数据:http://blogs.msdn.com/feroze_daud/archive/2004/03/30/104440.aspx
您也可能没有从服务器获取完整的实体主体,这可能是由于代理程序错误或其他因素造成的。
也许您可能想在应用中添加更多诊断信息。记录下载的#bytes,并使用代理。然后你可以做一个Encoding.ASCII.GetBytes(string).Length并确保它与下载的#bytes相同。如果不是,那么您的页面编码有问题。如果不是这种情况,那么路径上就有一个错误的代理。
希望这有帮助。