Question

我使用Github存储我的某个网站的文本，但问题是谷歌也在Github中索引文本。因此，相同的文本将显示在我的网站和Github上。例如this search最受欢迎的是我的网站。第二个命中是Github存储库。

我不介意人们是否看到消息来源，但我不希望Google对其进行索引（并且可能会对重复内容进行处罚。）除了将存储库设为私有之外，还有什么方法可以告诉Google停止对其进行索引？

Github Pages的情况会怎样？这些是源在Github存储库中的站点。他们有同样的重复问题吗？

将this search排名最高的潜在客户引至the Marpa site但我未在搜索结果中看到source。怎么样？

Answer 1

GitHub的https://github.com/robots.txt文件允许对“master”分支中的blob进行索引，但是限制所有其他分支。因此，如果您没有“主”分支，Google就不应该为您的网页编制索引。

如何删除'master'分支：

在你的克隆中创建一个新分支 - 让我们称之为'main'并将其推送到GitHub

git checkout -b main
git push -u origin main

在GitHub上更改默认分支（请参阅存储库的“设置”部分）或者https://github.com/blog/421-pick-your-default-branch

然后从克隆和GitHub中删除master分支：

git branch -d master
git push origin :master

让其他可能已经分叉您的存储库的人也这样做。

或者，如果您想在经济上支持GitHub，您可以私有化https://help.github.com/articles/making-a-public-repository-private

Answer 2

如果想要坚持使用主分支，似乎无法使用私人仓库（以及向上销售您的GitHub帐户）或使用其他免费提供私人回购服务的服务，例如Bitbucket。

Answer 3

简单回答：让您的回购私有化。

https://help.github.com/articles/making-a-public-repository-private

Answer 4

短的芒果。是的，你可以使用robots.txt。

如果您想阻止Googlebot抓取您网站上的内容，您可以选择多种方法，包括使用robots.txt阻止访问您服务器上的文件和目录。

仅当您的网站包含您不希望搜索引擎编制索引的内容时，才需要robots.txt文件。如果您希望搜索引擎为您网站中的所有内容编制索引，则不需要robots.txt文件（甚至不是空文件）。

虽然Google不会抓取或索引robots.txt阻止的网页内容，但如果我们在网络上的其他网页上找到这些网址，我们仍可能会将其编入索引。因此，页面的URL以及可能的其他公开信息（如网站链接中的锚文本或Open Directory Project（www.dmoz.org）中的标题）可以显示在Google搜索结果中。

来源：

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

如何阻止谷歌索引我的Github存储库

4 个答案: