我发现创建一个正则表达式(rubular)语法非常困难,我可以使用我们的抓取工具来提取所有以“' download'”字样结尾的网址。能否请你帮忙?非常感谢!
以下是匹配的网址
https://www.example.com/folder1/download
https://www.example.com/folder1/download/
https://www.example.com/folder1/folder2/download?cmp=abc
注意: 一世。在结束词之前可以有多个文件夹 II。结尾的单词可以附加一个查询字符串或正斜杠 III。 URL主要是相对URL。但是如果正则表达式匹配绝对URL,没有指定任何协议的URL,有或没有www部分,那真的会更好。
Ex.
<a href="/product-category/product-name/download">Download Tool</a>
Or
<a href="https://www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="http://www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="example.com/product-category/product-name/download">Download Tool</a>
虽然上述大多数内容最终都会在301重定向中出现,或者不能被视为有效的网址,但在抓取过程中发现此类异常情况仍然会很棒。
抓取工具背景: 这是正则表达式设置标签 - https://www.screencast.com/t/LJsKobubg3 这是我过去使用正则表达式在Dev团队的帮助下设法运行的自定义抓取之一(现在无法访问) - https://www.screencast.com/t/9mT2pSoP7sI 这是最终结果的样子 - https://www.screencast.com/t/MC5MNaJXi
最终结果是一个显示所有soruce页面+ URL匹配的电子表格。
我得到了一个正则表达式,但这与相对URL不匹配,并且还在最终结果报告中提取所有周围的HTML文本,而不仅仅是URL。 https://regex101.com/r/5nHp8s/1
再次非常感谢帮助我。