Question

我正在为客户进行重新设计。在新网站上，我想使用Google自定义搜索（CSE）作为搜索引擎。在我开发的过程中，我不能让谷歌为新网站编制索引，因为这将是一个糟糕的复制和半完成页面在Googles索引中游动。

那么如何在发布之前在我的开发网站上测试和优化Google CSE的搜索结果？

谢谢，丹尼尔

Answer 1

您的网站必须添加到您的网站管理员工具帐户中。添加测试网站后，我能够使用不允许网站搜索的索引中的robots.txt文件使用网站搜索抓取网页。

我能够抓取该页面但是要验证我在网站管理员工具中检查了网址，并且该网页仍然隐藏在主要的谷歌索引中。我将这个相同的网址添加到自定义搜索索引中，如果发现它就好了。

因此，这将有效地允许您搜索您的测试网站，但将其隐藏在世界搜索之外。

enter image description here

Answer 2

截至2016年11月，这仍然是不可能的。在问到这个问题之后，我意识到这是多年，但我一直在努力实现这一目标。这是我从查询中获得的（令人失望的）回复。

Google Site Search将仅返回以下结果的URL：


在搜索配置的网站中添加

索引

我想向您通知GSS托管在Google上   基础架构并使用与Google.com相同的技术。它是   不可能在GSS内部索引页面，但不能在   谷歌的主要指数。

GSS只能索引和抓取那些公开的文档   可通过互联网访问。

GSS和Google.com使用相同的抓取工具和相同的索引服务器。因此，如果   如果您阻止访问google.com，则不会将您的网页编入索引   并且也在GSS结果中服务。

Answer 3

您可以使用robots

来避免某些网页被编入索引

网站所有者使用/robots.txt文件提供有关的说明   他们的网站到网络机器人;这被称为机器人排除   协议

它的工作原理如下：机器人想要访问一个网站URL   http://www.example.com/welcome.html。在此之前，它是第一次   检查http://www.example.com/robots.txt，并找到：

User-agent: *
Disallow: /

“用户代理：*”表示此部分适用于所有机器人。该 “Disallow：/”告诉机器人它不应该访问任何页面该网站。

查看文档，我对robots.txt一无所知，所以不确定它是否值得尊敬。但是查看docs它表示您可以手动删除它或在sitemap.xml上设置过期日期

正在开发中的Google自定义搜索

3 个答案: