使用Nutch从一个页面中提取多个文档

时间:2013-07-29 20:26:34

标签: api parsing nutch web-crawler

我正在使用Nutch来抓取API并为数据编制索引。

使用API​​,我可以一次性使用多个“页面”数据。例如,假设我正在为电影编制索引。

我可以查询顶级并获得动作,戏剧,喜剧等类别的列表。然后,我可以查询每个类别并获得电影列表。此时,我可以将每部电影作为外链接入,并让nutch抓取每部电影的细节。

但是,类别通话已经为我提供了一次说10部电影的详细信息。

我希望能够在Nutch中创建10个条目,而不必抓取每个条目。可以这样做吗?

0 个答案:

没有答案