regex - 正则表达式，用于从Web爬网程序中排除URL - Thinbug

正则表达式，用于从Web爬网程序中排除URL

时间：2017-03-07 14:53:06

标签： regex url web-crawler sitemap

我正在使用在线工具抓取我客户的网站，并提供其中存在的网页/网址列表。

有一个排除页面的选项，它提供了\?.*page=.*$

的正则表达式示例

我想忽略新闻栏目中的所有内容（分开来自新闻页面本身）

那么我会选择以下内容吗？

\?.*news/.*$

1 个答案:

答案 0 :(得分：0)

如果我理解正确，您正在寻找与news/foo或news/foo/bar匹配的正则表达式，而不是news/。

您可以使用此正则表达式：.*news/.+

.*字符串以0或更多字符开头

news/字符串包含news /

.+字符串以1个或多个字符结尾

http://regexr.com/3ffj1