索引或不索引?什么是谷歌CSE在做什么?备择方案?

时间:2014-11-27 19:00:03

标签: perl lucene sitemap google-custom-search apache-lucy

我正在尝试了解Google CSE(自定义搜索引擎)正在做什么。我使用免费版本并提交sitemap.php

Google CSE获取此信息并索引200(2500页内)。我之前做过这个,并且开始怀疑它是否会为其余部分编制索引。

如果我查看Google网站管理员工具,该相关网站的信息中心会显示200页被编入索引。

如果我查看Google Webmaster Tools, Index Status,它会告诉我0页被编入索引。这对我来说不合适。我觉得目前200是正确的,但我真的不知道。

我怀疑这些差异是由于Google之前知道该网站。但是sitemap.php指向没有此文件时无法找到的页面。

我开始怀疑这是否会起作用。谷歌CSE以前有时会返回0,有时会有很多点击。我无法理解发生了什么,这就是我添加此站点地图的原因。站点地图以一种我认为对谷歌更好的新方式呈现相关页面。 (http://zotero.org/上的相同页面也采用不同的形式。)

有什么建议可以让我的搜索工作吗? (我正在考虑使用OpenSearchEngine,但我现在没有可以运行Java的虚拟主机。这是一个免费的项目,在我的业余时间,所以我没有很多经济资源。我可以让Apache Lucy工作,但我不确定。我试图在Cygwin下编译它,但由于gcc-4 - 链接的问题而失败,这在perl 5.18中得到修复,但Cygwin只有5.14。我的网络主机当然运行Linux,但对于Lucy看起来有点早。也许我错了?)

1 个答案:

答案 0 :(得分:0)

为每个免费的自定义搜索引擎分配了200页的配额,以便立即建立索引: https://support.google.com/customsearch/answer/115958?hl=en

但是,我认为On-demand indexing可能不是您想要的,您只是希望您的2.500网址可以通过CSE进行搜索(不会尽快抓取)。这可能是问题:“如果我查看Google网站站长工具,索引状态就会告诉我0页被编入索引”。

如果您的网站未被Google编入索引,因此它未显示在www.google.com结果中,那么您可能无法使用CSE(尚未)。您可以使用site:运算符 - https://www.google.com/webhp#q=site%3Azotero.org(以及Google网站管理员工具,索引状态,如您所述)查看已编入索引的页数。

我认为您应该在网站站长工具中提交站点地图,并确保您的站点易于抓取(页面正常加载,并且它们是相互关联的,导航是以纯HTML格式“硬编码”而不是由JavaScript生成,或者您提供了AJAX HTML快照等),并且没有任何技术问题(例如无效的robots.txt文件等),当您在www.google.com上site:your-domain.com上看到您的2.500页时,它们也会自动出现在你的CSE上。