索引的PDF文件未通过谷歌搜索返回

时间:2012-01-03 21:32:20

标签: google-search google-search-appliance

正如标题所示,我已设法配置我的GSA来抓取我的PDF文件。它们显示在列表页面上,并带有指向它们的链接,以便可以对URL进行爬网并将其添加到特定集合中(在此帖子中称为“My-PDF”)。

抓取成功,我可以在GSA抓取诊断中看到“My-PDF”集合中的以下内容:

CRAWL DIAGNOSTICS

 File/Directory                             | Crawl Status

 http://mydomain.com/Listings/MyPdfs.aspx   | Crawled: New Document
 http://mydomain.com/mypdfs/cat1/issue5.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat2/issue4.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat3/issue2.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat4/issue3.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat5/issue1.pdf | Crawled: New Document

单个文件的抓取诊断

  

有关此页面的更多信息

     
      
  • 链接到此页
  •   
  • 缓存版本不可用
  •   
  • PageRank:不可用
  •   
  • 上次修改时间:
  •   
  • 此页面上已抓取网页的链接数:未知
  •   
  • 链接到此页面的已抓取网页数:未知
  •   
  • 此页面位于以下集合中:   
        
    • MY-PDF文件
    •   
  •   

但是,在相同的“My-PDF”集合中使用GSA测试中心进行搜索时,PDF文件将不会返回。我确保在测试中心使用适当的前端选择,以及正确的集合('My-PDFs'),然后使用文档中的关键字。我也试过使用文件的文件名,但仍然没有结果。我总是得到:

  

您的搜索 - TestKeyword - 与任何文件都不匹配   没有找到包含“TestKeyword”的页面。

(显然,使用实际的关键字)

有什么想法吗?

注意:使用GSA 5.0。

1 个答案:

答案 0 :(得分:0)

这证明是我们的GSA设备上的损坏。在特定日期之后创建的任何新集合似乎都被抓取但无法搜索。以前工作的现有集合可以继续更新,但新的集合不能更新。

用新硬件替换GSA设备是迄今为止唯一有效的解决方案。