c#通过html-agility-pack解析来自维基百科的数据

时间:2017-08-17 13:04:51

标签: c# xpath html-agility-pack

我想从this链接中提取电影的发布日期。

问题是它直接在<td>标签中提供,该标签没有类或ID。我能想到的唯一可能的解决方案是使用样式标记来提取数据,但我不知道如何去做。

这是我的代码

url = "https://en.wikipedia.org/wiki/" + textBox1.Text.Replace(" ", "_");
try
{
    foreach (HtmlNode node in doc.DocumentNode.SelectNodes(/*?*/))
    {
        label1.Text+=node.InnerText;
    }                                
}
catch (Exception ex3) { }

请帮忙!

1 个答案:

答案 0 :(得分:-1)

以下XPath表达式为您提供所需的元素:

//*[@id="mw-content-text"]/div/table[1]/tbody/tr[14]/td

专业提示:打开Chrome调试工具,导航到您要搜索的元素,右键单击并按“&#34;复制&gt;复制xpath&#34;。

建议:XPath表达式似乎相当脆弱。有时尝试使用RegEx提取HTML的特定部分更有意义,这可能会导致更稳定的解决方案。但是,don't try to parse HTML with Regex!