来自网站的C#数据抓取

时间:2012-09-21 05:29:12

标签: c# html-agility-pack

我是C#领域的新手。自今年年初开始使用php和JavaScript。我想从博客中删除帖子和评论。该网站为http://www.somewhereinblog.net

我想做的是 1.我想使用软件登录 2.然后下载html 3.然后使用正则表达式,xpath可以方便地分离帖子和评论的内容

我一直在寻找。理解得很少。虽然我很确定我需要使用'htmlagilitypack'。我不知道如何将库添加到c#控制台或表单应用程序。有人可以给我一些帮助吗?我非常需要这个。而且我不会在一周内进入C#。如果有一些详细信息,将不胜感激。急切地等待。

先谢谢兄弟们。

1 个答案:

答案 0 :(得分:5)

  1. 使用Webclient即可登录和下载
  2. 而不是html-agility-pack我喜欢CsQuery,因为你可以在C#代码中的字符串中使用jQuery语法,这样你就可以将字符串下载到html中,然后像jQuery那样搜索和处理它。 HTML页面。