Visual Basic - 从源代码获取URL列表

时间:2012-10-17 15:09:36

标签: vb.net visual-studio text-parsing

我一直致力于一项计划,使我能够监控我的哪些公司客户链接到我们的网站。如果我能够使它工作,那将浪费大量时间浪费在手动搜索客户网站。

目前我有一个存储所有客户主页网址的数据库。我的程序循环遍历这些URL,抓取它们的SourceCode并将SourceCode放入文本框中。然后,它会在文本框中搜索我的公司URL,并返回“True”或“False”值。

如果为'True',则链接存在,但如果'False',我需要我的程序搜索同一站点上的其他页面,并检查链接是否存在于其他任何位置。

要做到这一点,我需要我的程序循环通过SourceCode(已在文本框中)并查找链接到同一站点上其他页面的所有其他URL(例如www.example.com,www.example.com / contact-us,www.example.com / about)并将它们存储在列表中。我不知道该怎么做?

1 个答案:

答案 0 :(得分:0)

基于......的解决方案怎么样?

Regex Help: Get list of URL(s) except extention .css, .js, .jpg, .gif, .png

            Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&amp;\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled)

            Dim matches As MatchCollection = MyRegex.Matches(textbox1.text)
            For Each item In matches
                ListBox1.Items.Add(item.ToString())

            Next

那么您需要过滤掉不相关的网站吗?