robots.txt阻止抓取工具访问页面

时间:2014-02-01 13:50:54

标签: seo web-crawler robots.txt

我试图找到如何阻止抓取工具访问我的链接:

site.com/something-search.html

我想阻止所有/某事 - *

有人可以帮助我吗?

2 个答案:

答案 0 :(得分:0)

在你的robots.txt

User-agent: *
Disallow: site.com/something-(1st link)
.
.
.
Disallow: site.com/somedthing-(last link)

为您不希望看到的每个页面添加条目!

虽然robots.txt中不允许使用正则表达式,但一些智能抓取工具可以理解它!

看看here

答案 1 :(得分:0)

User-agent: *
Disallow: /something-

这会阻止路径以/something-开头的所有网址,例如可从http://example.com/robots.txt访问的robots.txt:

  • http://example.com/something-
  • http://example.com/something-foo
  • http://example.com/something-foo.html
  • http://example.com/something-foo/bar
  • ...

仍然允许使用以下网址:

  • http://example.com/something
  • http://example.com/something.html
  • http://example.com/something/
  • ...