我正在使用Sphider。
我想允许Spider离开我的域http://www.example.com,但只抓取/访问包含example
的网址。表示只有http://www.example.com或http://www.my-example.com或http://www.test.example.com等网址应该被访问/编入索引但不是http://www.exa-mple.com。
阅读manual后,我尝试了以下内容:Screenshot of what I tried.
但我在尝试编制索引时收到此消息:Image: What I'm getting when trying to index.
谁能帮助我。我究竟做错了什么?我也尝试了*example*
,但这也没有用。
答案 0 :(得分:2)
documentation包含一个误导性的例子:
前面以
'*'
开头的每个字符串都被视为正则表达式,因此'*/[a]+/'
表示其中包含一个或多个a的字符串。
[...]
是一个字符类,它匹配在其中定义的一组/范围内的任何单个字符。
您可以使用*/example/
来定义与example
字符串匹配的正则表达式。
但是,如果您对检查上下文不感兴趣,也可以在必须包含列表中使用example
字符串。
答案 1 :(得分:0)
^(?=.*example)https?:\/\/\S+$
你可以试试这个。 这里的演示测试https://regex101.com/r/LUkHsD/3