我有一个使用FAST搜索SharePoint的内容源,我已将其设置为抓取dokuwiki / doku.php网站。我的抓取工具规则设置为:http://servername/ *,匹配大小写,并在此路径中包含抓取复杂网址的所有项目。在抓取规则中测试内容源会显示抓取工具将抓取该内容来源。但是......爬网总是持续不到2分钟并完成只抓取我指向的页面而该页面上没有其他链接。我已与Dokuwki管理员核实,并且他将机器人文本设置为允许。当我看到页面上的来源时,我看到它说 meta name =“robots”content =“index,follow”
所以为了测试其他链接页面不是问题,我手动将这些链接添加到内容源并重新抓取..示例源页面有三个链接
我将网站A,B和C网址添加到抓取源。这次抓取的结果是4次成功,主要的源页面和其他链接A,B和C i手动添加。
所以我的问题是为什么抓取工具不会抓取页面上的链接?这是我需要对我的爬虫做的事情,还是与如何定义命名空间和用Dokuwiki构建的链接有关?
欢迎任何帮助
埃里克
答案 0 :(得分:0)
您是否禁用了延迟索引选项和rel = nofollow选项?
答案 1 :(得分:0)
问题在于身份验证,即使没有报告任何问题表明它是FAST Crawl Logs中的身份验证。 修复程序是为搜索索引服务器的IP地址添加$ freepass设置,以便Appache不会为每个页面命中执行身份验证过程。
感谢您的回复
Eric