我正在编辑我的Robots.txt,如下所示:
User-agent: *
Disallow: /adm/*
Disallow: /download/*
Disallow: /cache
Disallow: /files
Disallow: /viewforum.php?f=146
Disallow: /ucp.php
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /config.php
Disallow: /cron.php
Disallow: /faq.php
Disallow: /report.php
Sitemap: http://www.website.com/app.php/sitemap.xml
我想知道如何正确地做一些事情。
1)这是否会正确阻止搜索引擎访问论坛区域?
Disallow: /viewforum.php?f=146
我想在搜索引擎中隐藏一个区域,但论坛区域的其他区域完全可以正常阅读。
2)如何阻止对内部PHPBB文件夹的访问并使搜索引擎不受管理员限制?这些规则是否正确?
Disallow: /adm/*
Disallow: /download/*
3)php文件的规则是否正常工作?
Disallow: /ucp.php
还有什么我应该知道或做的吗?
答案 0 :(得分:1)
该行
Disallow: /viewforum.php?f=146
禁止抓取路径以 /viewforum.php?f=146
开头的网址。
因此不允许抓取这些网址:
http://example.com/viewforum.php?f=146
http://example.com/viewforum.php?f=1461
http://example.com/viewforum.php?f=146a
http://example.com/viewforum.php?f=146/foo
http://example.com/viewforum.php?f=146&bar
(当然,/ucp.php
,/adm/
和/download/
的工作方式相同。请注意,这意味着不需要引用的*
,除非它实际上是网址的一部分。)
因此,如果论坛概述位于http://example.com/viewforum.php?f=146
,则会被阻止。但是,请注意,可能的情况是,可以从另一个URL访问同一页面,例如,类似于:http://example.com/viewforum.php?someOtherParameter&f=146
另请注意,这不一定会阻止对该论坛区域中的论坛话题进行抓取(因为它们通常不会以此路径开头)。虽然符合规定的机器人不会抓取此论坛区域页面,但他们可能会找到其他地方的线程链接。
答案 1 :(得分:0)
您只能通过robots.txt而不是文件禁止目录。 首先,从目录中删除星号。
Disallow: /adm/
Disallow: /download/
至于文件,您可以将其添加到< HEAD>部分。它不会阻止机器人抓取,但好的机器人应该忽略它并继续前进。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">