我正在为客户进行重新设计。在新网站上,我想使用Google自定义搜索(CSE)作为搜索引擎。在我开发的过程中,我不能让谷歌为新网站编制索引,因为这将是一个糟糕的复制和半完成页面在Googles索引中游动。
那么如何在发布之前在我的开发网站上测试和优化Google CSE的搜索结果?
谢谢, 丹尼尔
答案 0 :(得分:3)
您的网站必须添加到您的网站管理员工具帐户中。添加测试网站后,我能够使用不允许网站搜索的索引中的robots.txt文件使用网站搜索抓取网页。
我能够抓取该页面但是要验证我在网站管理员工具中检查了网址,并且该网页仍然隐藏在主要的谷歌索引中。我将这个相同的网址添加到自定义搜索索引中,如果发现它就好了。
因此,这将有效地允许您搜索您的测试网站,但将其隐藏在世界搜索之外。
答案 1 :(得分:2)
截至2016年11月,这仍然是不可能的。在问到这个问题之后,我意识到这是多年,但我一直在努力实现这一目标。这是我从查询中获得的(令人失望的)回复。
Google Site Search将仅返回以下结果的URL:
- 在搜索配置的网站中添加
- 索引
醇>我想向您通知GSS托管在Google上 基础架构并使用与Google.com相同的技术。它是 不可能在GSS内部索引页面,但不能在 谷歌的主要指数。
GSS只能索引和抓取那些公开的文档 可通过互联网访问。
GSS和Google.com使用相同的抓取工具和相同的索引服务器。因此,如果 如果您阻止访问google.com,则不会将您的网页编入索引 并且也在GSS结果中服务。
答案 2 :(得分:0)
您可以使用robots
来避免某些网页被编入索引网站所有者使用/robots.txt文件提供有关的说明 他们的网站到网络机器人;这被称为机器人排除 协议
它的工作原理如下:机器人想要访问一个网站URL http://www.example.com/welcome.html。在此之前,它是第一次 检查http://www.example.com/robots.txt,并找到:
User-agent: *
Disallow: /
“用户代理:*”表示此部分适用于所有机器人。该 “Disallow:/”告诉机器人它不应该访问任何页面 该网站。
查看文档,我对robots.txt一无所知,所以不确定它是否值得尊敬。但是查看docs它表示您可以手动删除它或在sitemap.xml
上设置过期日期