我有一个名为www.example.com的网站 - 它只是登陆页面。 - 它的HTML网站。
在该页面上有一个名为“CLiCK WEBSITE”的按钮 - 我的实际网站所在的位置。所以在网址上它应该看起来像www.example.com/originalwebsite - 它的wordpress网站。
现在我只想抓取我的“orignialwebsite”wordpresssite
的一些页面
www.example.com/originalwebsite/page1/,www.example.com/originalwebsite/page2/,www.example.com/originalwebsite/page3/当然还有主页 - html页面
那么,robots.txt应该是什么?
答案 0 :(得分:3)
Robots.txt主要用于遵守法律的搜索引擎抓取工具,以识别您的网站中不应被编入索引或抓取的部分。所以,而不是考虑“允许什么”思考“什么是不允许”。
从技术上讲,您可以禁止不需要在搜索结果中显示的JS, CSS or Config files/folder
。
告诉搜索蜘蛛停止抓取并建立索引
User-agent: *
Disallow: /
告诉搜索引擎不要抓取/索引少数部分执行此操作
User-agent: *
Disallow: /js/
Disallow: /css/
Disallow: /wp-config.php
Wordpress Robots.txt示例
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
如果抓取工具找到链接或对网页的引用,除非在Robots.txt中被拒绝,否则他们会对其进行抓取
答案 1 :(得分:-1)
http://www.robotstxt.org/robotstxt.html
上面的链接应告诉您如何执行此操作。 (几乎一直向下滚动)
请在进入Stack Overflow之前先进行谷歌搜索!
排除除一个
以外的所有文件目前这有点尴尬,因为没有"允许"领域。该 简单的方法是将所有文件都禁止分开 目录,说" stuff",并将一个文件保留在此目录上方的级别中:
User-agent: * Disallow: /~joe/stuff/