Question

所以我正在制作一个程序，提示用户输入一个URL并且程序对其进行分析，并为您提供与该网站相关的所有文件/链接，就像您使用实时HTTP标头时一样（全部获得）图像的链接）。所以，如果该网站是google.com，它会列出这个 - ＆gt; www.google.com www.google.com/banner.jpg www.google.com/file.js www.google.com/news.doc

例如： 1）用户进入网站并开始分析 2）程序列出所有网站文件 3）在列表框中输出的数据

我无法做到这一点，因为我没有理论代码。

Answer 1

在其他环境中，您尝试构建的内容称为Web爬网程序。

这个网站有一个很好的解释和一些代码示例： http://www.developerfusion.com/article/84330/building-a-web-crawler/

Answer 2

首先，您可以执行以下操作来获取HTML，然后使用HTML Agility Pack获取所需内容：

Imports System.Net
Imports System.IO

Public Class Form1

    Private Sub Button1_Click(sender As System.Object, e As System.EventArgs) Handles Button1.Click

       Dim myurl As String = "http://www.stackoverflow.com"
       Dim wc As WebClient = New WebClient()
       Dim reader As StreamReader = New StreamReader(wc.OpenRead(myurl))
       doSomethingToMyHTML(reader.ReadToEnd)

    End Sub
    Private Sub doSomethingToMyHTML(textinput As String)
         'get what you want with HTML Agility Pack
    End Sub
End Class

VB 2010 - 获取与列表框中的网站关联的所有链接

2 个答案: