使用HtmlAgilityPack从C#网站中抓取特定数据片段

时间:2020-08-04 17:28:24

标签: c# html web-scraping html-agility-pack

我想使用HtmlAgilityPack来为某个嵌套的div类抓取网页,该类包含一个span标记以及要提取的数据

我想要的元素文本的完整XPath:

/html/body/div[2]/div/div[1]/div/table/tbody/tr/td/span

我的代码:

  static void Main(string[] args)
        {
            HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
            HtmlAgilityPack.HtmlDocument doc = web.Load("http://watchout4snakes.com/wo4snakes/Random/RandomParagraph");

            var paragraph = doc.DocumentNode.SelectNodes("//div[@class='mainBody']//div[@class='content']//div[@class='resultContainer']" +
                "//div[@class='resultBox']//table[@class='paragraphResult']").ToList();

            foreach (var item in paragraph)
            {
                Console.WriteLine(item.InnerText);
            }
        }

我尝试将完整的XPath和doc.DocumentNode.SelectNodes()的Xpath一起放入 我的问题是它要么什么都不返回,要么在//*[@id='result']行上说Unhandled exception. System.ArgumentNullException: Value cannot be null. (Parameter 'source')时出错。

1 个答案:

答案 0 :(得分:1)

问题源是页面加载后,段落是通过AJAX通过JS脚本加载的。如果在浏览器中打开“开发工具/网络”,则可以看到。

加载的页面部分看起来像这样

<table class="paragraphResult">
    <tr>
        <td>
            <span id="result"></span>
        </td>
    </tr>
</table>

里面什么都没有。

加载后,页面将AJAX POST请求发送到相同的URL,并获取带有参数的纯字符串

Subject1: "",
Subject2: ""

以及URL编码格式的外观

Subject1=&Subject2=

要执行模拟Form行为,您可以手动发送POST请求。 HtmlAgilityPack在这里没有用,因为接收到的数据只是一个纯字符串。

class Program
{
    private static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        Console.Write("Proper Noun 1: ");
        string subject1 = Console.ReadLine();
        Console.Write("Proper Noun 2: ");
        string subject2 = Console.ReadLine();
        Dictionary<string, string> parameters = new Dictionary<string, string>()
        {
            { "Subject1", subject1 },
            { "Subject2", subject2 }
        };
        try
        {
            string result = await PostHTTPRequestAsync("http://watchout4snakes.com/wo4snakes/Random/RandomParagraph", parameters);
            Console.WriteLine(result);
        }
        catch (Exception ex)
        {
            Console.WriteLine(ex.Message);
        }
        Console.ReadKey();
    }

    private static async Task<string> PostHTTPRequestAsync(string url, Dictionary<string, string> data)
    {
        using (HttpContent formContent = new FormUrlEncodedContent(data))
        using (HttpResponseMessage response = await client.PostAsync(url, formContent).ConfigureAwait(false))
        {
            response.EnsureSuccessStatusCode();
            return await response.Content.ReadAsStringAsync().ConfigureAwait(false);
        }
    }
}

控制台输出

Proper Noun 1: test
Proper Noun 2: StackOverflow
When will the bass garage StackOverflow? A digest sighs test below the objective card. Why won't test finish behind a girlfriend? A heating science approaches test.

效果很好。您所要做的只是在浏览器中正确分析HTTP流量。此外,HttpClient是与网络互动的强大工具。