"网址的问题必须包括"使用Sphider搜索引擎

时间:2017-04-17 09:37:46

标签: php regex search search-engine sphider

我正在使用Sphider

我想允许Spider离开我的域http://www.example.com,但只抓取/访问包含example的网址。表示只有http://www.example.comhttp://www.my-example.comhttp://www.test.example.com等网址应该被访问/编入索引但不是http://www.exa-mple.com

阅读manual后,我尝试了以下内容:Screenshot of what I tried.

但我在尝试编制索引时收到此消息:Image: What I'm getting when trying to index.

谁能帮助我。我究竟做错了什么?我也尝试了*example*,但这也没有用。

2 个答案:

答案 0 :(得分:2)

documentation包含一个误导性的例子:

  

前面以'*'开头的每个字符串都被视为正则表达式,因此'*/[a]+/'表示其中包含一个或多个a的字符串。

[...]是一个字符类,它匹配在其中定义的一组/范围内的任何单个字符。

您可以使用*/example/来定义与example字符串匹配的正则表达式。 但是,如果您对检查上下文不感兴趣,也可以在必须包含列表中使用example字符串。

答案 1 :(得分:0)

^(?=.*example)https?:\/\/\S+$

你可以试试这个。 这里的演示测试https://regex101.com/r/LUkHsD/3