应用错误收集

我是Nutch的新手，所以请耐心等待。

我的目标是简单地从网页中提取一些内容，并能够检索结果信息。例如，假设我已经在电子商务网站上抓取了一些页面，并打算存储产品信息（即名称，类别，价格等）。

重申一下，假设我的seed.txt文件包含www.site.com并初始化爬网。假设我的HtmlParseFilters设置为正确解析来自www.site.com的产品信息，并且此爬网将解析www.site.com和www.site.com/link。如果www.site.com包含ID为1的产品A，而www.site.com/link包含ID为2的产品B，我希望我能够使用某种预定义的实用程序来单独给出这些结果：

A 1

B 2

目前，我发现自己正在修改org.apache.nutch.segment.SegmentReader和org.apache.nutch.parse.ParseResult和org.apache.nutch.metadata.MetaData的toString（）方法来隔离我提取的结果，让我觉得我错过了一些东西......我不想看到外链，recno，URL，解析元数据，播放或任何其他抓取元数据;我只想要我的HTML过滤结果，如上所述。

简而言之，我真的很想了解如何使用nutch来刮取一组网站并仅仅提供我提取的内容。

如果您需要任何澄清，请随时告诉我。

使用Nutch从网页中提取文本

0 个答案: