IBM Watson Discovery爬行问题

时间:2019-06-20 07:38:44

标签: ibm-cloud ibm-watson watson-discovery watson-assistant

我们想索引客户网站并将所有数据存储在IBM Watson Discovery service中。然后,当用户提出与客户数据有关的问题时(我们将发现与Watson Assistant连接起来)。聊天机器人应该连接到Discovery并获取数据以进行响应。

问题: 客户网站有多个链接,每个链接将有更多链接,我们希望从网站中检索所有数据并建立索引并将其存储在Watson Discovery服务中。我们尝试对网站进行爬网,但是发现服务需要花费很多时间来对网站进行爬网,并且它在1周后也未完成任务。 请让我们知道如何更好更快地实现这一目标。

1 个答案:

答案 0 :(得分:0)

请注意,网络抓取是当前的Beta版,Watson Discovery documentation for web crawl指出,根据网站的不同,它不会提取所有数据。

我在与您类似的情况下在Discovery中使用了Web爬网,并使用通过Watson Assistant建立的聊天查询我的网站。您应该做什么:

  • 增加跳数:Watson Discovery应该爬到您的网站多深
  • 取决于您的网站:添加多个入口点
  • 指定要排除的所有路径。我添加了将添加重复条目的内容以及生成的摘要页面,RSS提要等的内容。
  • 调整应多久爬一次
  • 检查Watson Discovery是否可以访问您的网站并且您的网站没有阻止爬网