是否有任何免费/开源的c#库从html中提取数据?
鉴于以下输入
<div style="...">
text part 1
</div>
<div style="...">
text part 2
</div>
我希望输出为:
text part 1 text part 2
答案 0 :(得分:6)
是的,您可以使用HtmlAgilityPack使用Xpath查询解析HTML,就好像它是XML一样。
答案 1 :(得分:4)
你可以使用HtmlAgilitiPack非常好的图书馆。
然后:
public string StripHTMLTags(string str)
{
StringBuilder pureText = new StringBuilder();
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(str);
foreach (HtmlNode node in doc.DocumentNode.ChildNodes)
{
pureText.Append(node.InnerText);
}
return pureText.ToString();
}