Question

我正试图从网页中抓取一些内容，这些内容不是统一的。我想要做的是告诉XPATH按照它看到的顺序抓取html标签内的任何内容并返回结果，而不必指定div名称等，因为它们是不同的而且不是很均匀。

所以我需要知道如何只是按照从标签中找到的顺序返回任何html内容，无论它们是类，ems，强标签等。我对XPATH的唯一体验是指定实际的div名称，例如：

//div[@id='tab_info']

Answer 1

这个XPath，

try
{
    MailMessage message = new MailMessage();
    SmtpClient smtp = new SmtpClient();

    message.From = new MailAddress("from@gmail.com");
    message.To.Add(new MailAddress("to@gmail.com"));
    message.Subject = "Test";
    message.Body = "Content";

    smtp.Port = 587;
    smtp.Host = "gmail.com";
    smtp.EnableSsl = true;
    smtp.UseDefaultCredentials = true;
    smtp.Credentials = new NetworkCredential("from@gmail.com", "password");
    smtp.DeliveryMethod = SmtpDeliveryMethod.Network;
    smtp.Send(message);
}
catch (Exception ex)
{
    MessageBox.Show("err: " + ex.Message);
}

将返回整个XML或HTML文档的字符串值。也就是说，它将按照文档顺序返回所有文本的单个字符串。

XPATH - 如何在每个html元素中拾取文本而不管类

1 个答案: