Question

我想从this链接中提取电影的发布日期。

问题是它直接在<td>标签中提供，该标签没有类或ID。我能想到的唯一可能的解决方案是使用样式标记来提取数据，但我不知道如何去做。

这是我的代码

url = "https://en.wikipedia.org/wiki/" + textBox1.Text.Replace(" ", "_");
try
{
    foreach (HtmlNode node in doc.DocumentNode.SelectNodes(/*?*/))
    {
        label1.Text+=node.InnerText;
    }                                
}
catch (Exception ex3) { }

请帮忙！

Answer 1

以下XPath表达式为您提供所需的元素：

//*[@id="mw-content-text"]/div/table[1]/tbody/tr[14]/td

专业提示：打开Chrome调试工具，导航到您要搜索的元素，右键单击并按“＆＃34;复制＆gt;复制xpath＆＃34;。

建议：XPath表达式似乎相当脆弱。有时尝试使用RegEx提取HTML的特定部分更有意义，这可能会导致更稳定的解决方案。但是，don't try to parse HTML with Regex!

c＃通过html-agility-pack解析来自维基百科的数据

1 个答案: