正在开发中的Google自定义搜索

时间:2013-05-02 12:48:38

标签: google-custom-search

我正在为客户进行重新设计。在新网站上,我想使用Google自定义搜索(CSE)作为搜索引擎。在我开发的过程中,我不能让谷歌为新网站编制索引,因为这将是一个糟糕的复制和半完成页面在Googles索引中游动。

那么如何在发布之前在我的开发网站上测试和优化Google CSE的搜索结果?

谢谢, 丹尼尔

3 个答案:

答案 0 :(得分:3)

您的网站必须添加到您的网站管理员工具帐户中。添加测试网站后,我能够使用不允许网站搜索的索引中的robots.txt文件使用网站搜索抓取网页。

我能够抓取该页面但是要验证我在网站管理员工具中检查了网址,并且该网页仍然隐藏在主要的谷歌索引中。我将这个相同的网址添加到自定义搜索索引中,如果发现它就好了。

因此,这将有效地允许您搜索您的测试网站,但将其隐藏在世界搜索之外。

enter image description here

答案 1 :(得分:2)

截至2016年11月,这仍然是不可能的。在问到这个问题之后,我意识到这是多年,但我一直在努力实现这一目标。这是我从查询中获得的(令人失望的)回复。

  

Google Site Search将仅返回以下结果的URL:

     
      
  1. 在搜索配置的网站中添加
  2.   
  3. 索引
  4.         

    我想向您通知GSS托管在Google上   基础架构并使用与Google.com相同的技术。它是   不可能在GSS内部索引页面,但不能在   谷歌的主要指数。

         

    GSS只能索引和抓取那些公开的文档   可通过互联网访问。

         

    GSS和Google.com使用相同的抓取工具和相同的索引服务器。因此,如果   如果您阻止访问google.com,则不会将您的网页编入索引   并且也在GSS结果中服务。

答案 2 :(得分:0)

您可以使用robots

来避免某些网页被编入索引
  

网站所有者使用/robots.txt文件提供有关的说明   他们的网站到网络机器人;这被称为机器人排除   协议

     

它的工作原理如下:机器人想要访问一个网站URL   http://www.example.com/welcome.html。在此之前,它是第一次   检查http://www.example.com/robots.txt,并找到:

User-agent: *
Disallow: /
  

“用户代理:*”表示此部分适用于所有机器人。该   “Disallow:/”告诉机器人它不应该访问任何页面   该网站。

查看文档,我对robots.txt一无所知,所以不确定它是否值得尊敬。但是查看docs它表示您可以手动删除它或在sitemap.xml上设置过期日期