我使用Github存储我的某个网站的文本,但问题是谷歌也在Github中索引文本。因此,相同的文本将显示在我的网站和Github上。例如this search最受欢迎的是我的网站。第二个命中是Github存储库。
我不介意人们是否看到消息来源,但我不希望Google对其进行索引(并且可能会对重复内容进行处罚。)除了将存储库设为私有之外,还有什么方法可以告诉Google停止对其进行索引?
Github Pages的情况会怎样?这些是源在Github存储库中的站点。他们有同样的重复问题吗?
将this search排名最高的潜在客户引至the Marpa site但我未在搜索结果中看到source。怎么样?
答案 0 :(得分:74)
GitHub的https://github.com/robots.txt文件允许对“master”分支中的blob进行索引,但是限制所有其他分支。因此,如果您没有“主”分支,Google就不应该为您的网页编制索引。
如何删除'master'分支:
在你的克隆中创建一个新分支 - 让我们称之为'main'并将其推送到GitHub
git checkout -b main
git push -u origin main
在GitHub上更改默认分支(请参阅存储库的“设置”部分) 或者https://github.com/blog/421-pick-your-default-branch
然后从克隆和GitHub中删除master分支:
git branch -d master
git push origin :master
让其他可能已经分叉您的存储库的人也这样做。
或者,如果您想在经济上支持GitHub,您可以私有化https://help.github.com/articles/making-a-public-repository-private
答案 1 :(得分:0)
如果想要坚持使用主分支,似乎无法使用私人仓库(以及向上销售您的GitHub帐户)或使用其他免费提供私人回购服务的服务,例如Bitbucket。
答案 2 :(得分:0)
答案 3 :(得分:-5)
短的芒果。是的,你可以使用robots.txt。
如果您想阻止Googlebot抓取您网站上的内容,您可以选择多种方法,包括使用robots.txt阻止访问您服务器上的文件和目录。
仅当您的网站包含您不希望搜索引擎编制索引的内容时,才需要robots.txt文件。如果您希望搜索引擎为您网站中的所有内容编制索引,则不需要robots.txt文件(甚至不是空文件)。
虽然Google不会抓取或索引robots.txt阻止的网页内容,但如果我们在网络上的其他网页上找到这些网址,我们仍可能会将其编入索引。因此,页面的URL以及可能的其他公开信息(如网站链接中的锚文本或Open Directory Project(www.dmoz.org)中的标题)可以显示在Google搜索结果中。
来源:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449