旧工作模式,直到网站更改其托管文件的方式。
http[s]?://[0-9a-z_.-]+\.[a-z]{2,4}[:0-9]*/([0-9a-z_./-])*[0-9a-z _.-](?:jpg|bmp|gif|png)+
我无法弄清楚如何编写有效的正则表达式以匹配网址模式以从网页中提取图片。
我想要的图像字符串具有这种模式:
images.domain.com/1/src/1333849327175.jpg
images.domain.com/2/src/2311487564321.png
images.domain.com/a/src/4568436431234.gif
images.domain.com/b/src/1234237456466.jpeg
images.domain.com/abc12/src/123456466.bmp
还有很多其他图片,所以我只想要符合图像模式的图片.domain.com
我无法绕过它!试过这个,但有一种简单的方法来测试它吗?
images[0-9a-z_.-]+\.[a-z]{2,4}[:0-9]*/([0-9a-z_./-])*[0-9a-z _.-](?:jpg|bmp|gif|png)+
答案 0 :(得分:1)
为什么如此复杂/通用。你不能只是一个特定的:
images\.domain\.com/[0-9a-z]+/src/[0-9]+\.(?:jpg|bmp|gif|png)
以下是.NET的测试工具:http://derekslager.com/blog/posts/2007/09/a-better-dotnet-regular-expression-tester.ashx