如何配置robots.txt以允许几页?

时间:2016-06-09 13:51:00

标签: wordpress robots.txt

我有一个名为www.example.com的网站 - 它只是登陆页面。 - 它的HTML网站。

在该页面上有一个名为“CLiCK WEBSITE”的按钮 - 我的实际网站所在的位置。所以在网址上它应该看起来像www.example.com/originalwebsite - 它的wordpress网站。

现在我只想抓取我的“orignialwebsite”wordpresssite
的一些页面 www.example.com/originalwebsite/page1/,www.example.com/originalwebsite/page2/,www.example.com/originalwebsite/page3/当然还有主页 - html页面

那么,robots.txt应该是什么?

2 个答案:

答案 0 :(得分:3)

Robots.txt主要用于遵守法律的搜索引擎抓取工具,以识别您的网站中不应被编入索引或抓取的部分。所以,而不是考虑“允许什么”思考“什么是不允许”。

从技术上讲,您可以禁止不需要在搜索结果中显示的JS, CSS or Config files/folder

告诉搜索蜘蛛停止抓取并建立索引

User-agent: * 
Disallow: /

告诉搜索引擎不要抓取/索引少数部分执行此操作

User-agent: * 
Disallow: /js/
Disallow: /css/
Disallow: /wp-config.php

Wordpress Robots.txt示例

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html

如果抓取工具找到链接或对网页的引用,除非在Robots.txt中被拒绝,否则他们会对其进行抓取

答案 1 :(得分:-1)

http://www.robotstxt.org/robotstxt.html

上面的链接应告诉您如何执行此操作。 (几乎一直向下滚动)

请在进入Stack Overflow之前先进行谷歌搜索!

  

排除除一个

以外的所有文件      

目前这有点尴尬,因为没有"允许"领域。该   简单的方法是将所有文件都禁止分开   目录,说" stuff",并将一个文件保留在此目录上方的级别中:

User-agent: * 
Disallow: /~joe/stuff/