库从html字符串中提取数据

时间:2011-12-17 23:04:35

标签: c# .net html html-parsing

是否有任何免费/开源的c#库从html中提取数据?

鉴于以下输入

<div style="...">
 text part 1
</div>
<div style="...">
 text part 2
</div>

我希望输出为:

text part 1 text part 2

2 个答案:

答案 0 :(得分:6)

是的,您可以使用HtmlAgilityPack使用Xpath查询解析HTML,就好像它是XML一样。

答案 1 :(得分:4)

你可以使用HtmlAgilitiPack非常好的图书馆。

然后:

public string StripHTMLTags(string str)
        {
            StringBuilder pureText = new StringBuilder();
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(str);

            foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
            {
                pureText.Append(node.InnerText);
            }

            return pureText.ToString();
        }