使用vb.net的网络爬虫/蜘蛛

时间:2012-12-13 07:08:13

标签: .net vb.net web-crawler

我正在寻找一种非常耗时的自动化任务的方法。我们有制造商名称和产品编号,我们在网上搜索以找到既有信息又有搜索制造商或供应商网站的网站,并使用链接上的信息填充我们数据库中的相关字段。

手动搜索过程会花费大量时间,我正在寻找的是一个可以取名字和产品#的工具,输入到网上并搜索与输入匹配的网站并转储那些链接。

任何人都可以帮助我!

1 个答案:

答案 0 :(得分:1)

你想要实现的目标需要相当多的工作,我担心你没有提供足够的信息让我深入细节。但是,在宽屏中,简单的爬网算法需要执行以下步骤:

  • 为所需的网址创建HttpWebRequest的实例。如果您需要执行POST请求,请使用GetRequestStream()方法填充正文。
  • 在请求上调用GetResponse()以获取服务器的响应。使用GetResponseStream()从响应中读取HTML标记;
  • 使用HtmlAgilityPack迭代DOM节点并选择所需数据。
  • 使用Fiddler查看broswer发送的内容与应用程序发送的内容之间的区别。
  • 最后但并非最不重要的,如果您遇到无法解决或不知道答案的问题 - 您已经知道如何使用StackOverflow:)