我该如何解析这个HTML文件?

时间:2010-06-14 01:38:35

标签: html-parsing html-agility-pack

<div id="main">

<style type="text/css">
</style>

<script language="JavaScript">    
</script>
<p style="margin: 0pt 0pt 0.5em;"><b>Media from&nbsp;<a onclick="(new Image()).src='/rg/find-media-title/media_strip/images/b.gif?link=/title/tt0087538/';" href="/title/tt0087538/">The Karate Kid</a> (1984)</b></p>
<style type="text/css">    
</style>

<table style="border-collapse: collapse;">
</table>
</div>

我需要以某种方式提取(new Image())的href值。我将如何使用HtmlAgilityPack实现这一目标?

我是新手,到目前为止,我还没有找到有关如何有效地使用它进行解析的有用教程。

感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

HtmlAgilityPack本身并不提供许多解析选项。但是你可以在XPath中使用它来完成任何类型的复杂解析。在您的示例中,您可以这样做 -

var testString = "..."; // Your html 
var doc = new HtmlDocument();
doc.LoadHtml(testString);
var node = doc.DocumentNode.SelectSingleNode("/div/p/b/a");
var hrefValue = node.GetAttributeValue("href", ""));

这将给出

/title/tt0087538/