Web浏览器控件的问题不等到事件执行?

时间:2013-02-05 12:05:20

标签: c# .net webbrowser-control web-scraping web-crawler

我试图进入一些网页并获取一些信息,使用网络浏览器,以便记住我的登录详细信息。事情工作到这里,但多个网址浏览器文档加载不能正常工作,因为我想要。

我的目的是去url->等到它加载 - >将所需数据输入文本 - >新的网址和相同的过程。

我用循环来改变url,但是当我运行所有的url时,一个接一个地传递,而不是等到文档加载并写入文本。请帮帮我。

 private void button1_Click_1(object sender, EventArgs e)
    {

        String text = File.ReadAllText("links.txt");

        var result = Regex.Split(text, "\r\n|\r|\n");
        foreach (string s in result)
        {
            listBox1.Items.Add(s);
        }
        for (int i = 0; i < listBox1.Items.Count; i++)
        {
            this.Text = Convert.ToString(i + 1) + "/" + Convert.ToString(listBox1.Items.Count);
            textBox1.Text += listBox1.Items[i];

            String url = textBox1.Text;
            webBrowser2.ScriptErrorsSuppressed = true;
            webBrowser2.DocumentCompleted += webBrowser2_DocumentCompleted;
            webBrowser2.Navigate(url);

     }
   }

    void webBrowser2_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
    {
        string sourceCode = webBrowser2.DocumentText;
        try
        {
           /*someregax expressions to filter text */

            StreamWriter sw = new StreamWriter("inks_info.txt", true);
            sw.Write("url" + "~" + sourceCode + "\n");
            sw.Close();

            textBox1.Text = "";
        }

        catch
        {

            StreamWriter sw = new StreamWriter("inks_fail.txt", true);
            sw.Write(textBox1.Text + "\n");
            sw.Close();

            textBox1.Text = "";

        }
    }

2 个答案:

答案 0 :(得分:1)

每个项目的文档加载都有一个事件处理程序,但在启动第二个导航之前,您不会在第一个导航后等待它触发。你的for循环需要“更加异步”。例如,将项目放入队列并一次请求一个:

Queue<string> _items;
private void button1_Click_1(object sender, EventArgs e)
{        
    String text = File.ReadAllText("links.txt");
    _items = new Queue<string>(Regex.Split(text, "\r\n|\r|\n"));
    webBrowser2.ScriptErrorsSuppressed = true;
    webBrowser2.DocumentCompleted += webBrowser2_DocumentCompleted;
    RequestItem();
}
private void RequestItem()
{
    if (_items.Any())
    {
        var url = _items.Dequeue(); // preprocess as required
        webBrowser2.Navigate(url);
    }
}
void webBrowser2_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
    // Handle result
    RequestItem(); // Then request next item
}

您的代码看起来也像使用UI元素(如列表框)作为中间变量,仅用于逻辑目的而不是显示。您应该从显示中分离逻辑(使用常规变量,数据结构,如列表和请求数据)(在列表框中显示结果,更新文本框等)。目前尚不清楚您是否希望使用WebBrowser偶数 - 看起来您只是在下载文字,而应使用WebClientHttpClient。使用async / await时,代码也可以更清晰:

foreach (var url in urls)
{
     string text = await new WebClient().DownloadStringAsync(url);
     // Handle text
}

答案 1 :(得分:0)

非常简单的答案。 WebBorwser控件很糟糕,但这就是你要找的东西:

WHILE(webBrowser.ReadyState != WebBrowserReadyState.Ready)
{
     Application.DoEvents()
}

多数民众赞成..它不会冻结您的应用程序或让您迷失在代码中,它只是等待它不导航。非常欢迎你。