这甚至可能吗?
我遇到导航问题,导航也作为内容包含在文档中。这就是为什么我要删除所有链接标记,使其不在数据中。
我正在使用1.7版本。
答案 0 :(得分:3)
如果您只想告诉nutch不遵循“a”标签,您只需在“parser.html.outlinks.ignore_tags”设置中添加“a”即可。
如果你想从解析的数据中删除“a”标签及其内容,因为nutch附带的当前HtmlParser没有任何与此相关的设置,我认为你应该编写一个nutch插件并开发一个HtmlParseFilter来做你的逻辑。