我正在寻找一个http库(用于c#程序),它允许我从网上下载一些html文档。我知道HttpWebRequest对象和.NET库提供的其他选项,但是,我需要更完整的解决方案,能够处理不同的文档编码(有时编码是在文档本身而不是在Http中指定的头)。
感谢。
答案 0 :(得分:3)
WCF Rest Starter Kit包含一个非常有用的HttpClient类 - 它现在可用于.NET 3.5 SP1,可以立即使用。由于它似乎被认为是一个有用的类,它可能最终会出现在.NET 4.0的基类库中。
肯定还要查看Aaron Skonnard的tutorial screencast,其中包括HttpClient和WCF休息入门套件中的其他好东西以及其他WCF休息入门套件资源:
http://msdn.microsoft.com/en-us/netframework/cc950529.aspx
马克
答案 1 :(得分:1)
Webclient课程提供您需要的一切。要处理特殊编码情况,请将文档作为字节流下载,然后执行必要的操作。
答案 2 :(得分:0)
sztomi是对的,Webclient类可以做你需要的。
如果您需要解析和使用HTML,请查看HTML Agility Pack(http://www.codeplex.com/htmlagilitypack)
“这是一个敏捷的HTML解析器,它构建一个读/写DOM并支持普通的XPATH或XSLT(你实际上不需要理解XPATH,也不需要XSLT来使用它,不用担心......)。一个.NET代码库,允许你解析“out of the web”HTML文件。解析器非常容忍“真实世界”格式错误的HTML。对象模型非常类似于提出System.Xml,但对于HTML文档(或溪流)。“