我必须抓住一些新闻网站。我已经使用Hadoop 2.7.4和Hbase集群设置了Apache Nache 2.3.1。我必须通过solr 6.6.1提供搜索。在抓取一些网站后,我发现Nutch抓取了页面中的所有内容。在新闻网站中,有侧栏包含最新或最新消息等。这些侧边栏内容随时间而变化。有没有办法让Nutch抓取主要故事内容并避免这样的边栏。
答案 0 :(得分:1)
好吧,既然你正在使用Nutch 2.x这有点困难,对于Nutch 1.x你可以使用Tika上提供的套管实施。但不幸的是,它尚未移植到2.x分支。