我一直致力于一项计划,使我能够监控我的哪些公司客户链接到我们的网站。如果我能够使它工作,那将浪费大量时间浪费在手动搜索客户网站。
目前我有一个存储所有客户主页网址的数据库。我的程序循环遍历这些URL,抓取它们的SourceCode并将SourceCode放入文本框中。然后,它会在文本框中搜索我的公司URL,并返回“True”或“False”值。
如果为'True',则链接存在,但如果'False',我需要我的程序搜索同一站点上的其他页面,并检查链接是否存在于其他任何位置。
要做到这一点,我需要我的程序循环通过SourceCode(已在文本框中)并查找链接到同一站点上其他页面的所有其他URL(例如www.example.com,www.example.com / contact-us,www.example.com / about)并将它们存储在列表中。我不知道该怎么做?
答案 0 :(得分:0)
基于......的解决方案怎么样?
Regex Help: Get list of URL(s) except extention .css, .js, .jpg, .gif, .png
Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled)
Dim matches As MatchCollection = MyRegex.Matches(textbox1.text)
For Each item In matches
ListBox1.Items.Add(item.ToString())
Next
那么您需要过滤掉不相关的网站吗?