我们需要抓取一组特定的网址。
比如我们有网站abc.com。我们需要抓取abc.com/test/needed - 所有符合此模式的网址都在"需要"夹。但我们并不想抓取abc.com/test /.
下的其他网址我想这将使用RegEx完成。任何人都可以帮我关注RegEx吗?
答案 0 :(得分:0)
根据您在评论中所说的内容,使用与/xyz
形式的内容匹配的模式,而不是/xyz/imp
形式的内容:
/xyz(/[^i][^m][^p].*)?|/xyz/.{0,2}
答案 1 :(得分:0)
可以添加到GSA的模式可以是:
abc.com/test/needed
或
包含:abc.com/test/needed
要考虑的是GSA如何获得这些文件。如果它不能蜘蛛到文件夹,它就不会找到文件。
答案 2 :(得分:0)
在GSA中,您可以制作3种规格。
从问题本身中指定的内容来看,我认为您需要做的就是,进入"开始抓取" url as:" abc.com /"然后加入"跟随和抓取"规范为:" abc.com/test/needed /" ;,假设您在网站上不需要其他路径/文件夹。