快速搜索Dokuwiki页面的Sharepoint Crawler问题

时间:2011-06-23 19:21:31

标签: sharepoint-2010 dokuwiki

我的欺诈程度在抓取Dokuwiki网站时最大化。

我有一个使用FAST搜索SharePoint的内容源,我已将其设置为抓取dokuwiki / doku.php网站。我的抓取工具规则设置为:http://servername/ *,匹配大小写,并在此路径中包含抓取复杂网址的所有项目。在抓取规则中测试内容源会显示抓取工具将抓取该内容来源。但是......爬网总是持续不到2分钟并完成只抓取我指向的页面而该页面上没有其他链接。我已与Dokuwki管理员核实,并且他将机器人文本设置为允许。当我看到页面上的来源时,我看到它说  meta name =“robots”content =“index,follow”

所以为了测试其他链接页面不是问题,我手动将这些链接添加到内容源并重新抓取..示例源页面有三个链接

  • 网站A
  • 网站B
  • 网站C。

我将网站A,B和C网址添加到抓取源。这次抓取的结果是4次成功,主要的源页面和其他链接A,B和C i手动添加。

所以我的问题是为什么抓取工具不会抓取页面上的链接?这是我需要对我的爬虫做的事情,还是与如何定义命名空间和用Dokuwiki构建的链接有关?

欢迎任何帮助

埃里克

2 个答案:

答案 0 :(得分:0)

您是否禁用了延迟索引选项和rel = nofollow选项?

答案 1 :(得分:0)

问题在于身份验证,即使没有报告任何问题表明它是FAST Crawl Logs中的身份验证。 修复程序是为搜索索引服务器的IP地址添加$ freepass设置,以便Appache不会为每个页面命中执行身份验证过程。

感谢您的回复

Eric