链接为https://instagram.com/p/Tud_psln-Yrn
我无法提取下划线_或减号 - 。
下划线可能也可能不在链接的最后部分以及减号。它们也可能都在链接的最后部分。
Dim rgxPhoto As New Regex("instagram.com/p\w*\d*\D*/>")
Dim mchPhoto As Match = rgxPhoto.Match(strPageContent)
Do While mchPhoto.Success
intPhotoCount += 1
mchPhoto = mchPhoto.NextMatch
Loop
基本上,正则表达式应该从链接的最后部分提取_and /或 - 。它提取542 URLS,但实际用户的照片数是564.这是因为带有_和 - 的网址。
感谢您的任何建议。
答案 0 :(得分:1)
要匹配网址中的最后一个字词,请使用" ([\w\-]+)\/*$"
要匹配完整网址,请使用" ^https:\/\/instagram\.com\/p\/[\w\-]+\/*$"
编辑:与您的代码保持一致:
Dim rgxPhoto As New Regex("instagram.com/p/[\w\-]*/>")
答案 1 :(得分:0)
你可以找到 - 和_用" /[-_]/g"然后用零替换它。