我正在阅读C#中的网站并将内容作为字符串....有些网站没有格式良好的html结构。
我尝试了HtmlAgilityPack
和其他一些,但他们需要格式良好的HTML,这在我的情况下是不可能的。
现在我需要一种非常简单的方法来阅读Div或span id / class。
这是我的html http://jsfiddle.net/bwJU7/
请给我一个简单的C#代码,它将会读取
div class="item "
并在我的HTML中获取title
,price
,photos
和description
。
答案 0 :(得分:0)
如果您将内容作为字符串加载,并且不希望其中包含任何常规结构,那么Regular Expressions就是您的朋友。
这样的事可能会对你有所帮助:
String content = "Your content goes here";
var regex = new Regex("<div(?:.*?)class=\"item\"[^>]*>(.*?)</div>");
foreach (Match div in regex.Matches(content))
{
Console.WriteLine(div.Groups[0].Value);
}