网站google代码未显示所有结果

时间:2015-07-19 13:21:57

标签: search robots.txt

如果我去这个网址 http://sppp.rajasthan.gov.in/robots.txt

我得到了

User-Agent: *
Disallow: 
Allow: /

这意味着允许抓取工具完全访问网站并将所有内容编入索引,然后为什么网站搜索:sppp.rajasthan.gov.in在谷歌搜索中只显示几页,其中包含大量文档,包括pdf文件。< / p>

1 个答案:

答案 0 :(得分:3)

可能有很多原因。

  1. 你不需要robots.txt用于毯子允许爬行。默认情况下允许一切。
  2. http://www.robotstxt.org/robotstxt.html不允许空白Disallow行:
      

    此外,您可能没有记录中的空白行,因为它们用于分隔多个记录。

  3. 检查谷歌网站管理员工具,看看是否有一些网页被禁止抓取。
  4. 将站点地图提交给谷歌。
  5. 使用&#34;抓取谷歌&#34;看看谷歌是否能正常看到该网站。
  6. 尝试通过google界面手动提交链接。
  7. 仔细观察它。

    1. Google不知道如何浏览网站上的某些链接。具体来说,http://sppp.rajasthan.gov.in/bidlist.php底部导航使用动态加载的onclick javascript并且它不会更改网址,因此即使谷歌想要,也无法链接到第2页。
    2. 在投标列表中,您可以点击详细说明投标的投标列表。这些没有公共网址。谷歌无法链接到它们。
    3. 我看到的PDF是梵文中放入PDF文档的图像扫描。虽然Google会使用OCR PDF文档(http://googlewebmastercentral.blogspot.sg/2011/09/pdfs-in-google-search-results.html),但他们可能无法使用梵文。如果它们包含适当的文本而不是图像,则你更有可能对它们进行整理。
    4. 我的原始观点仍然存在。 Google应该能够找到http://sppp.rajasthan.gov.in/sppp/upload/documents/5_GFAR.pdf页面上的http://sppp.rajasthan.gov.in/actrulesprocedures.php。如果您对特定页面可能缺失的原因有疑问,我会尝试回答。

      但基本上网站做了一些奇怪的非标准事情,这正是你需要一个站点地图。与流行的观点相反,站点地图对于搜索引擎优化是,这是因为Google无法找到您的网页。