Nutch Raw Html Saving

时间:2012-04-13 14:20:51

标签: nutch

我正在尝试在不同的文件中获取抓取页面的原始html,命名为页面的url。通过排除索引部分, Nutch 是否可以将原始html页面保存在不同的文件中?

1 个答案:

答案 0 :(得分:2)

没有直接的方法可以做到这一点。您将不得不进行一些代码修改。 请参阅thisthis