我是Nutch的新手,所以请耐心等待。
我的目标是简单地从网页中提取一些内容,并能够检索结果信息。例如,假设我已经在电子商务网站上抓取了一些页面,并打算存储产品信息(即名称,类别,价格等)。
重申一下,假设我的seed.txt文件包含www.site.com并初始化爬网。假设我的HtmlParseFilters设置为正确解析来自www.site.com的产品信息,并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品A,而www.site.com/link包含ID为2的产品B,我希望我能够使用某种预定义的实用程序来单独给出这些结果:
A 1
B 2
目前,我发现自己正在修改org.apache.nutch.segment.SegmentReader和org.apache.nutch.parse.ParseResult和org.apache.nutch.metadata.MetaData的toString()方法来隔离我提取的结果,让我觉得我错过了一些东西......我不想看到外链,recno,URL,解析元数据,播放或任何其他抓取元数据;我只想要我的HTML过滤结果,如上所述。
简而言之,我真的很想了解如何使用nutch来刮取一组网站并仅仅提供我提取的内容。
如果您需要任何澄清,请随时告诉我。