所以我一直在使用Zend Lucene搜索来编写爬虫脚本来索引我网站上的所有页面。我已经能够使脚本工作但由于某种原因将无法在页面上找到其他链接。问题似乎是当脚本命中find方法时:
$hits = $index->find('url:'.$targets[$i]);
当我执行脚本时,阵列中没有命中,因此搜寻器仅索引起始URI。关于我可以尝试的任何想法?
答案 0 :(得分:2)
有一个工具可以查看lucene索引,它可以让你看到索引的内容。 Luke应该让您看到已编入索引的内容并测试一些搜索。
您确定在创建索引时索引了url字段,您可能只是存储信息而不是可搜索:
激活addField(::若干Zend_Search_Lucene_Field不索引
找不到,因为它没有编入索引
答案 1 :(得分:0)
如果索引中有数字,这将有所帮助。
识别数字使用: Zend_Search_Lucene_Analysis_Analyzer :: setDefault(new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive()); 作为默认分析器。 有关更多信息,请参阅 http://framework.zend.com/manual/en/zend.search.lucene.extending.html