正则表达式,用于从Web爬网程序中排除URL

时间:2017-03-07 14:53:06

标签: regex url web-crawler sitemap

我正在使用在线工具抓取我客户的网站,并提供其中存在的网页/网址列表。

有一个排除页面的选项,它提供了\?.*page=.*$

的正则表达式示例

我想忽略新闻栏目中的所有内容(分开来自新闻页面本身)

那么我会选择以下内容吗?

\?.*news/.*$

1 个答案:

答案 0 :(得分:0)

如果我理解正确,您正在寻找与news/foonews/foo/bar匹配的正则表达式,而不是news/

您可以使用此正则表达式:.*news/.+

.*字符串以0或更多字符开头

news/字符串包含news /

.+字符串以1个或多个字符结尾

http://regexr.com/3ffj1