我可以添加文档'我的收藏的URL类型?

时间:2017-02-09 16:24:43

标签: ibm-cloud watson-discovery

我想将一个网站索引到我的收藏中,基本上我想索引我的Wordpress网站,循环浏览所有帖子'网址。

E.g。

url=http://www.szirine.com/blog/2016/02/07/anne-dunn/

当然,理想情况下我希望能够迭代地索引整个域或URI, E.g。

url=http://www.szirine.com/
url=http://www.szirine.com/blog/

1 个答案:

答案 0 :(得分:2)

目前最好的解决方案是使用Bluemix中Discovery Service仪表板上提供的Data Crawler。

v1.3.0 的数据抓取工具不具备通过HTTP或HTTPS抓取网站的本机方式。这可能会在未来版本的Data Crawler中发生变化。

但是现在,可以使用GNU wget(一种具有镜像模式和great documentation的广泛可用的HTTP客户端)来模拟网络爬网,以在本地下载网站并将其上传到Discovery使用Data Crawler的文件系统连接器进行服务。

要镜像网站,请使用wget --mirror http://www.example.com。有关详细信息,请阅读上面链接的文档。

如果本机网页抓取是您非常需要的,请打开故障单,以便我们了解此功能的需求强度。

一个注意事项:wget for Windows存在,但目前不是很有价值,因为Data Crawler从v1.3.0起不支持Windows。