确保搜索引擎和机器人找不到我的cms页面

时间:2013-08-11 22:06:30

标签: php .htaccess search bots

他只是想知道谷歌或任何搜索引擎或机器人如何找不到它。然后我的意思是网站的特定页面,如cms页面。此外,它对于在线应用程序来说也很方便,只能由一小群人使用,并不适合Google上的搜索者。

我的大学给了我这个(我认为这不是最好的动态解决方案):

...
<Files .htaccess> 
  deny from all 
</Files>

 RewriteCond %{HTTP_USER_AGENT} ^BlackWidow [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Bot\ mailto:craftbot@yahoo.com [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Custo [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Download\ Demon [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Express\ WebPictures [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^GetWeb! [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^HMView [OR] 
 RewriteCond %{HTTP_USER_AGENT} HTTrack [NC,OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Image\ Stripper [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Image\ Sucker [OR] 
 RewriteCond %{HTTP_USER_AGENT} Indy\ Library [NC,OR] 
 RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Internet\ Ninja [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^JOC\ Web\ Spider [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^larbin [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^LeechFTP [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Mass\ Downloader [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^MIDown\ tool [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Mister\ PiX [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Net\ Vampire [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^NetZIP [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Offline\ Explorer [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Offline\ Navigator [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Papa\ Foto [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^pavuk [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Web\ Image\ Collector [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Web\ Sucker [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebGo\ IS [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebLeacher [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Website\ eXtractor [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Website\ Quester [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Wget [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Widow [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^WWWOFFLE [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Xaldon\ WebSpider [OR] 
 RewriteCond %{HTTP_USER_AGENT} ^Zeus 
...

我尝试了谷歌这个,但我只找到有关让搜索引擎找到该页面的信息,我希望相反。

是的我使用Apache在PHP中组合,我不知道我是否可以在PHP脚本中执行某些操作来阻止机器人请求。

2 个答案:

答案 0 :(得分:1)

使用robots.txt文件。见http://www.robotstxt.org/

上面的配置太傻了。它只适用于您所了解的机器人,不适用于任何您不了解的机器人,或任何尚不存在的机器人。

答案 1 :(得分:0)

您需要更清楚地了解您要阻止的内容。你提到“像一个cms页面”。这是否意味着您还希望隐藏登录屏幕?内部CMS页面将始终对机器人隐藏,因为机器人不会(不应该)知道您的用户名/密码。

如果您亲自前往假设网址www.mycms.com/add_article.php而未登录,那么您是否可以创建文章?如果您的答案是肯定的,那么在您开始担心机器人之前,您需要处理更多问题。

如果您发现机器人正在消耗您的网站带宽,那么您的同事给您的.htaccess代码仅提供了一个基本的解决方案。有些网站完全致力于揭露这些“坏机器人”。首先查看这篇文章http://searchenginewatch.com/article/2067357/Bye-bye-Crawler-Blocking-the-Parasites

如果你做的一切正确,那么登录页面将是机器人可以访问的唯一页面。如果您希望阻止机器人访问您的登录页面,请确保您的URL永远不会发布在论坛等公共网站上,因为好的和坏的机器人都会搜索论坛并按照他们可以找到的任何网址。

此外,本网站是否会被您在公司内部网上工作的人严格使用?如果是这样,那么请考虑设置仅限Intranet的网站/服务器。询问贵公司的网络专家,你不会相信它是多么容易。

你可以研究的最后一件事:.htpasswd

祝你好运!