Question

我有一个名为www.example.com的网站 - 它只是登陆页面。 - 它的HTML网站。

在该页面上有一个名为“CLiCK WEBSITE”的按钮 - 我的实际网站所在的位置。所以在网址上它应该看起来像www.example.com/originalwebsite - 它的wordpress网站。

现在我只想抓取我的“orignialwebsite”wordpresssite
的一些页面 www.example.com/originalwebsite/page1/,www.example.com/originalwebsite/page2/,www.example.com/originalwebsite/page3/当然还有主页 - html页面

那么，robots.txt应该是什么？

Answer 1

Robots.txt主要用于遵守法律的搜索引擎抓取工具，以识别您的网站中不应被编入索引或抓取的部分。所以，而不是考虑“允许什么”思考“什么是不允许”。

从技术上讲，您可以禁止不需要在搜索结果中显示的JS, CSS or Config files/folder。

告诉搜索蜘蛛停止抓取并建立索引

User-agent: * 
Disallow: /

告诉搜索引擎不要抓取/索引少数部分执行此操作

User-agent: * 
Disallow: /js/
Disallow: /css/
Disallow: /wp-config.php

Wordpress Robots.txt示例

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html

如果抓取工具找到链接或对网页的引用，除非在Robots.txt中被拒绝，否则他们会对其进行抓取

Answer 2

http://www.robotstxt.org/robotstxt.html

上面的链接应告诉您如何执行此操作。（几乎一直向下滚动）

请在进入Stack Overflow之前先进行谷歌搜索！

排除除一个
以外的所有文件
目前这有点尴尬，因为没有＆＃34;允许＆＃34;领域。该   简单的方法是将所有文件都禁止分开   目录，说＆＃34; stuff＆＃34;，并将一个文件保留在此目录上方的级别中：
User-agent: * 
Disallow: /~joe/stuff/

如何配置robots.txt以允许几页？

2 个答案: