XPATH - 如何在每个html元素中拾取文本而不管类

时间:2017-07-29 15:12:06

标签: xpath

我正试图从网页中抓取一些内容,这些内容不是统一的。我想要做的是告诉XPATH按照它看到的顺序抓取html标签内的任何内容并返回结果,而不必指定div名称等,因为它们是不同的而且不是很均匀。

所以我需要知道如何只是按照从标签中找到的顺序返回任何html内容,无论它们是类,ems,强标签等。我对XPATH的唯一体验是指定实际的div名称,例如:

//div[@id='tab_info']

1 个答案:

答案 0 :(得分:1)

这个XPath,

try
{
    MailMessage message = new MailMessage();
    SmtpClient smtp = new SmtpClient();

    message.From = new MailAddress("from@gmail.com");
    message.To.Add(new MailAddress("to@gmail.com"));
    message.Subject = "Test";
    message.Body = "Content";

    smtp.Port = 587;
    smtp.Host = "gmail.com";
    smtp.EnableSsl = true;
    smtp.UseDefaultCredentials = true;
    smtp.Credentials = new NetworkCredential("from@gmail.com", "password");
    smtp.DeliveryMethod = SmtpDeliveryMethod.Network;
    smtp.Send(message);
}
catch (Exception ex)
{
    MessageBox.Show("err: " + ex.Message);
}

将返回整个XML或HTML文档的字符串值。也就是说,它将按照文档顺序返回所有文本的单个字符串。