Nutch 1.12正则表达式url过滤器无法形成正则表达式

时间:2017-02-25 08:51:31

标签: regex solr web-crawler nutch

我的seed.txt的内容是https://www.drugs.com,我想抓取结构为

的网页
  

https://www.drugs.com/cdi/ uniqueDrugName html的

我要抓取的网页示例

  1. https://www.drugs.com/cdi/acetaminophen.html
  2. https://www.drugs.com/cdi/refludan.html
  3. https://www.drugs.com/cdi/Erbitux.html
  4. https://www.drugs.com/cdi/ontak.html
  5. 我想抓一些这些药物'页面。 请建议我应该使用的正则表达式或正则表达式,因为我是正则表达式的新手。三江源。

    我尝试了以下正则表达式,但他们没有工作

    +^https://([a-z0-9]*\.)*drugs\.com/cdi/([a-z0-9]*\.)*html
    

1 个答案:

答案 0 :(得分:0)

它并不完全清楚你想要什么,但我对你的正则表达式进行了一些修改。它现在符合你的例子。

(?m)^https:\/\/.*drugs\.com\/cdi\/.*\.html

  • (?m)确保^能够正常运作。
  • 已转义/个字符。
  • 无需使用[a-z0-9]*。我已将其替换为.*

如果这不是您想要的,请编辑您的问题以包含更多示例并在评论中通知我。