VB 2010 - 获取与列表框中的网站关联的所有链接

时间:2013-05-07 20:10:21

标签: html vb.net visual-studio-2010 http

所以我正在制作一个程序,提示用户输入一个URL并且程序对其进行分析,并为您提供与该网站相关的所有文件/链接,就像您使用实时HTTP标头时一样(全部获得)图像的链接)。 所以,如果该网站是google.com,它会列出这个 - > www.google.com www.google.com/banner.jpg www.google.com/file.js www.google.com/news.doc

例如: 1)用户进入网站并开始分析 2)程序列出所有网站文件 3)在列表框中输出的数据

我无法做到这一点,因为我没有理论代码。

2 个答案:

答案 0 :(得分:0)

在其他环境中,您尝试构建的内容称为Web爬网程序。

这个网站有一个很好的解释和一些代码示例: http://www.developerfusion.com/article/84330/building-a-web-crawler/

答案 1 :(得分:0)

首先,您可以执行以下操作来获取HTML,然后使用HTML Agility Pack获取所需内容:

Imports System.Net
Imports System.IO

Public Class Form1

    Private Sub Button1_Click(sender As System.Object, e As System.EventArgs) Handles Button1.Click

       Dim myurl As String = "http://www.stackoverflow.com"
       Dim wc As WebClient = New WebClient()
       Dim reader As StreamReader = New StreamReader(wc.OpenRead(myurl))
       doSomethingToMyHTML(reader.ReadToEnd)

    End Sub
    Private Sub doSomethingToMyHTML(textinput As String)
         'get what you want with HTML Agility Pack
    End Sub
End Class