从站点地图抓取网址并将其编入索引到elasticsearch

时间:2016-11-09 23:35:57

标签: elasticsearch scrapy web-crawler nutch frontera

我有一个用例,我需要从一堆站点地图中抓取页面并将其索引到elasticsearch。从我的调查到目前为止,我已将其缩小到Nutch和Scrapy(可能是Frontera)。我喜欢Nutch,因为它非常成熟,并且与Tika和其他库集成,因此可以解析不同类型的内容(如PDF,Doc等)。我也读了一些关于Scrapy的好东西,并想知道它是否是一个不错的选择。我正在寻找广泛采用且相当稳定的东西。我对Java非常熟悉,但我也熟悉Python。

我很想听听使用过上述工具之一的人的经验或建议。

0 个答案:

没有答案