如何将HTML文本和图像提取/抓取到Windows手机?

时间:2013-08-15 19:02:51

标签: c# windows-phone-7 html-agility-pack

您好, 我想知道,我如何刮取Windows手机中列表(ul,li)中的HTML网站文本。我想制作一个RSS提要阅读器。请详细说明,我是HTMLAgilityPack的新手。 谢谢。

1 个答案:

答案 0 :(得分:0)

这并不像你想象的那么简单。您必须使用HTMLAgility包来解析和规范化HTML内容。但是你需要通过每个节点来评估它是否是内容节点,即你想要忽略DIV,Embeds等。

我会尽力帮助你开始。

阅读文件

Uri url = new Uri(<Your url>);
HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument document = web.Load(url.AbsoluteUri);

这里是如何提取图像和文字标签

var docNode = documentNode;
// if you just want all text withing the document then life is simpler.
string htmlText = docNode.InnerText;

// Get images
IEnumerable<HtmlNode> imageNodes = docNode.Descendants("img");
// Now iterate through all the images and do what you like...

如果要实现清理等可读性/ Instapaper,请从https://github.com/marek-stoj/NReadability下载NReadability