C#从HTML文档中提取内容

时间:2012-06-24 14:56:18

标签: c# html windows-phone-7

我想知道如何在发布链接时做类似Facebook的事情,或者像缩短可以获得页面标题及其内容的链接服务。

示例:

example

我的想法是只从网页上获取纯文本,例如,如果网址是报纸的文章,我怎么才能获得新闻的文字,如图中所示。现在我一直在尝试使用HtmlAgilityPack,但我永远无法将文本清理干净。

请注意,此应用适用于Windows Phone 7.

1 个答案:

答案 0 :(得分:5)

您与HtmlAgilityPack走在正确的轨道上。

如果您需要网站的所有文字,请转到innerText属性。但我建议您使用meta description标记(如果有)。

编辑 - 转到meta description。我相信Facebook正在做的事情:

Facebook链接示例

Facebook link sample

网站来源

Site source