我从Nutch(主干版本)开始,我在代码中旋转而没有看到一些看起来很明显的东西。
我想提取每个已抓取的网址的资源(例如:https://stackoverflow.com/questions/ask ===> / question / ask),希望得到两个结果: 1.将信息作为附加字段发布到Solr实例。我已经解决了编写IndexingFilter插件的问题,并且工作得很好。 2.当下一个命令被抛出时,将此信息转储为元数据:bin / nutch readdb -dump crawldb
在第二点,我被困了。阅读文档和其他示例似乎我必须使用CrawlDatum但我不知道我必须修改哪个类以便在转储时显示此信息。 也许有人知道在哪里触摸才能实现这个目标?
一些帮助将不胜感激!