我需要索引我公司的员工手册,该手册托管在外部网站上。此页面需要登录,并支持通过查询字符串参数自动登录。
像这样:http://manual.externalprovider.com?token=xxxxxxxxx
在我的内容来源中输入此网址时,我没有得到任何结果和以下警告:
由于以下原因之一,项目未被抓取:预防性抓取 规则;超出指定的内容源跃点/深度; 网址有查询 字符串参数;找不到所需的协议处理程序预防 机器人指令。 (此项目已删除,因为它已被排除在外 抓取规则。 )
是否无法抓取在起始地址中包含查询字符串参数的内容?关于如何解决这个问题的任何其他建议?
答案 0 :(得分:2)
我认为这是可能的,但您需要创建新的爬网规则
转到搜索服务应用程序 - >抓取规则 - >新的爬网规则。
然后粘贴您的起始网址:http://manual.externalprovider.com/ *,请检查"包含此路径中的所有项目"然后"抓取复杂的网址(包含问号(?)的网址)"。