我试图找到如何阻止抓取工具访问我的链接:
site.com/something-search.html
我想阻止所有/某事 - *
有人可以帮助我吗?
答案 0 :(得分:0)
在你的robots.txt
中User-agent: *
Disallow: site.com/something-(1st link)
.
.
.
Disallow: site.com/somedthing-(last link)
为您不希望看到的每个页面添加条目!
虽然robots.txt中不允许使用正则表达式,但一些智能抓取工具可以理解它!
看看here
答案 1 :(得分:0)
User-agent: *
Disallow: /something-
这会阻止路径以/something-
开头的所有网址,例如可从http://example.com/robots.txt
访问的robots.txt:
http://example.com/something-
http://example.com/something-foo
http://example.com/something-foo.html
http://example.com/something-foo/bar
仍然允许使用以下网址:
http://example.com/something
http://example.com/something.html
http://example.com/something/