我想将一个网站索引到我的收藏中,基本上我想索引我的Wordpress网站,循环浏览所有帖子'网址。
E.g。
url=http://www.szirine.com/blog/2016/02/07/anne-dunn/
当然,理想情况下我希望能够迭代地索引整个域或URI, E.g。
url=http://www.szirine.com/
url=http://www.szirine.com/blog/
答案 0 :(得分:2)
目前最好的解决方案是使用Bluemix中Discovery Service仪表板上提供的Data Crawler。
v1.3.0 的数据抓取工具不具备通过HTTP或HTTPS抓取网站的本机方式。这可能会在未来版本的Data Crawler中发生变化。
但是现在,可以使用GNU wget(一种具有镜像模式和great documentation的广泛可用的HTTP客户端)来模拟网络爬网,以在本地下载网站并将其上传到Discovery使用Data Crawler的文件系统连接器进行服务。
要镜像网站,请使用wget --mirror http://www.example.com
。有关详细信息,请阅读上面链接的文档。
如果本机网页抓取是您非常需要的,请打开故障单,以便我们了解此功能的需求强度。
一个注意事项:wget for Windows存在,但目前不是很有价值,因为Data Crawler从v1.3.0起不支持Windows。