Question

我的seed.txt的内容是https://www.drugs.com，我想抓取结构为

的网页

https://www.drugs.com/cdi/的 uniqueDrugName html的

我要抓取的网页示例

我想抓一些这些药物＆＃39;页面。请建议我应该使用的正则表达式或正则表达式，因为我是正则表达式的新手。三江源。

我尝试了以下正则表达式，但他们没有工作

+^https://([a-z0-9]*\.)*drugs\.com/cdi/([a-z0-9]*\.)*html

Answer 1

它并不完全清楚你想要什么，但我对你的正则表达式进行了一些修改。它现在符合你的例子。

(?m)^https:\/\/.*drugs\.com\/cdi\/.*\.html

如果这不是您想要的，请编辑您的问题以包含更多示例并在评论中通知我。