从在线网站C#读取HTML

时间:2013-06-19 08:24:05

标签: c# html .net parsing html-agility-pack

我正在阅读C#中的网站并将内容作为字符串....有些网站没有格式良好的html结构。

我尝试了HtmlAgilityPack和其他一些,但他们需要格式良好的HTML,这在我的情况下是不可能的。

现在我需要一种非常简单的方法来阅读Div或span id / class。

这是我的html http://jsfiddle.net/bwJU7/

请给我一个简单的C#代码,它将会读取

div class="item " 

并在我的HTML中获取titlepricephotosdescription

1 个答案:

答案 0 :(得分:0)

如果您将内容作为字符串加载,并且不希望其中包含任何常规结构,那么Regular Expressions就是您的朋友。

这样的事可能会对你有所帮助:

String content = "Your content goes here";

var regex = new Regex("<div(?:.*?)class=\"item\"[^>]*>(.*?)</div>");
foreach (Match div in regex.Matches(content))
{               
    Console.WriteLine(div.Groups[0].Value);
}