首先感谢这样一个伟大的社区。我从这里的问题和答案中学到了很多东西。这是我关于S.O.的第一个问题,所以请保持温和:)
好的,但首先要做的事情是:
第一代码版本:
private async void buttonWebScrap_Click(object sender, EventArgs e)
{
ClickLink("/ptk/sun/core/cookie/CookiesHandler.accept");
await Task.Delay(750);
if (_backgroundTaskRunning || !ClickLink("msisdn-change")) return;
_backgroundTaskRunning = true;
await LongTaskAsync();
}
private async Task LongTaskAsync()
{
const string previous = "msisdn-pool-prev";
const string next = "msisdn-pool-next";
var tempNumbers = new List<object>();
while (true)
{
await Task.Delay(750);
var document = webBrowser.DocumentText;
var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.LoadHtml(document);
var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");
tempNumbers.AddRange(from number in numbers
where number.Id != previous && number.Id != next
select number.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars());
tempNumbers.Add("-------------------------");
if (tempNumbers.Count >= 24)
{
listBoxNumbers.Items.AddRange(tempNumbers.ToArray());
tempNumbers.Clear();
}
if (ClickLink(next) == false)
{
break;
}
}
}
private bool ClickLink(string linkId)
{
if (webBrowser.Document != null)
{
var elementById = webBrowser.Document.GetElementById(linkId);
if (elementById != null)
{
elementById.InvokeMember("click");
}
else
{
return false;
}
if (webBrowser.Document.Window != null)
{
webBrowser.Document.Window.ScrollTo(0, 480);
}
}
else
{
return false;
}
return true;
}
- 第二代码版本:
private void MainForm_Load(object sender, EventArgs e)
{
_webBrowserDocuments = new ConcurrentQueue<string>();
_uiScheduler = TaskScheduler.FromCurrentSynchronizationContext();
_progress = new Progress<string>();
_progress.ProgressChanged += (o, s) => _objects.Add(s);
_objects = new BindingList<string>();
listBoxNumbers.DataSource = _objects;
}
private void MainForm_FormClosing(object sender, FormClosingEventArgs e)
{
WebBrowserEmulation.Delete();
}
private async void buttonWebScrap_Click(object sender, EventArgs e)
{
await WebBrowserClickLinkAsync("/ptk/sun/core/cookie/CookiesHandler.accept");
if (_backgroundTaskRunning || !(await WebBrowserClickLinkAsync("msisdn-change"))) return;
await Task.Delay(5000);
var cts = new CancellationTokenSource();
await WebBrowserDocumentDownloadAsync(cts);
await DocumentParseAsync(_progress, cts);
_backgroundTaskRunning = true;
}
private async Task DocumentParseAsync(IProgress<string> progress, CancellationTokenSource cts)
{
await Task.Factory.StartNew(() =>
{
while (true)
{
string tempDocument;
if (_webBrowserDocuments.TryDequeue(out tempDocument))
{
var htmlDoc = new HtmlAgilityPack.HtmlDocument();
htmlDoc.LoadHtml(tempDocument);
var numbers = htmlDoc.DocumentNode.SelectNodes("//a[starts-with(@id, 'msisdn')]");
foreach (var number in numbers.Where(number => number.Id != Previous && number.Id != Next).
Select(x => x.InnerText.RemoveEnters().RemoveSpaces().ReplaceSpecificChars()))
{
progress.Report(number);
}
progress.Report("-------------------------");
}
if (cts.IsCancellationRequested)
{
break;
}
}
}, cts.Token);
}
private async Task WebBrowserDocumentDownloadAsync(CancellationTokenSource cts)
{
await Task.Factory.StartNew(async () =>
{
while (true)
{
await Task.Delay(1000);
_webBrowserDocuments.Enqueue(webBrowser.DocumentText);
if (await WebBrowserClickLinkAsync(Next)) continue;
cts.Cancel();
break;
}
}, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}
private async Task<bool> WebBrowserClickLinkAsync(string linkId)
{
return await Task.Factory.StartNew(() =>
{
if (webBrowser.Document != null)
{
var elementById = webBrowser.Document.GetElementById(linkId);
if (elementById != null)
{
elementById.InvokeMember("click");
}
else
{
return false;
}
if (webBrowser.Document.Window != null)
{
webBrowser.Document.Window.ScrollTo(0, 480);
}
}
else
{
return false;
}
return true;
}, new CancellationToken(), TaskCreationOptions.None, _uiScheduler);
}
在开始工作时,一切工作都很顺利,但在网络抓取大约500个数字后,“GUI”有点迟钝。我不知道是否是我对async / await模式的“坏”理解,或其他什么。我认为第二个版本对于这个任务会更好 - 但它仍然很迟钝:/。有人可以帮我这个吗?
为什么我使用webbrowser控件而不是webclient?我知道它会容易得多,但是我网页抓取的网站是用(我看到的)Java(jsessionId)+ ajax制作的,而且没有“正确的”链接。
如果您需要更多细节,请写下;)
提前致谢。
编辑:
第二个版本正在使用返回任务(或任务)的方法,以简化使用MainForm中当前SynchronizationContext的await(只有两个)
第一个版本是第一个使用await / async的方法(因为你可以看到LongTaskAsync()方法是异步的,等待了Task.Delay())
这是一个完成的代码(没有一些人认为像获取SynchronizationContext,将ListBox.DataSource设置为BindList等),在winform上只有3个控件 - webbrowser,listbox和button;)
答案 0 :(得分:2)
减速可能是由于您将值添加到用户界面。
在循环过程中,您将项目添加到列表框中:
if (tempNumbers.Count >= 24)
{
listBoxNumbers.Items.AddRange(tempNumbers.ToArray());
tempNumbers.Clear();
}
随着越来越多的结果,列表框显示实际上会成为瓶颈,导致事情变慢。由于必须始终在UI线程上更新列表框,这将导致UI随着时间的推移而降低响应速度。
您的第二个选项可能会更糟,因为您在第二个选项中一次向BindingList<T>
个项目添加项目,并且每次添加都会导致刷新UI。
这可以通过使用VirtualMode设置为true的ListView来缓解,因为这可以防止添加新项目,从而强制在屏幕上刷新。