nutch - 将元数据添加到Crawldb转储

我从Nutch（主干版本）开始，我在代码中旋转而没有看到一些看起来很明显的东西。

我想提取每个已抓取的网址的资源（例如：https://stackoverflow.com/questions/ask ===＆gt; / question / ask），希望得到两个结果： 1.将信息作为附加字段发布到Solr实例。我已经解决了编写IndexingFilter插件的问题，并且工作得很好。 2.当下一个命令被抛出时，将此信息转储为元数据：bin / nutch readdb -dump crawldb

在第二点，我被困了。阅读文档和其他示例似乎我必须使用CrawlDatum但我不知道我必须修改哪个类以便在转储时显示此信息。也许有人知道在哪里触摸才能实现这个目标？

一些帮助将不胜感激！

将元数据添加到Crawldb转储

0 个答案: