标签: api parsing nutch web-crawler
我正在使用Nutch来抓取API并为数据编制索引。
使用API,我可以一次性使用多个“页面”数据。例如,假设我正在为电影编制索引。
我可以查询顶级并获得动作,戏剧,喜剧等类别的列表。然后,我可以查询每个类别并获得电影列表。此时,我可以将每部电影作为外链接入,并让nutch抓取每部电影的细节。
但是,类别通话已经为我提供了一次说10部电影的详细信息。
我希望能够在Nutch中创建10个条目,而不必抓取每个条目。可以这样做吗?