我的seed.txt的内容是https://www.drugs.com
,我想抓取结构为
https://www.drugs.com/cdi/的 uniqueDrugName html的
我要抓取的网页示例
https://www.drugs.com/cdi/acetaminophen.html
https://www.drugs.com/cdi/refludan.html
https://www.drugs.com/cdi/Erbitux.html
https://www.drugs.com/cdi/ontak.html
我想抓一些这些药物'页面。 请建议我应该使用的正则表达式或正则表达式,因为我是正则表达式的新手。三江源。
我尝试了以下正则表达式,但他们没有工作
+^https://([a-z0-9]*\.)*drugs\.com/cdi/([a-z0-9]*\.)*html
答案 0 :(得分:0)
它并不完全清楚你想要什么,但我对你的正则表达式进行了一些修改。它现在符合你的例子。
(?m)^https:\/\/.*drugs\.com\/cdi\/.*\.html
(?m)
确保^
能够正常运作。/
个字符。[a-z0-9]*
。我已将其替换为.*
。如果这不是您想要的,请编辑您的问题以包含更多示例并在评论中通知我。