Question

我正在尝试从Nutch编写我自己的Crawl.java版本，我会做一些不同的东西。我不想使用Nutch源代码。我只是想干净地导入几个罐子并开始使用我的应用程序。我应该如何提供conf / crawl-urlfilter.txt和其他所需的配置文件？

有人可以帮助我吗？感谢

Answer 1

一种简单的方法是将代码打包在jar中。确保在开始爬行的类中包含一个main。将该jar文件放在Nutch安装的lib文件夹中。您现在可以使用类似的命令开始抓取（假设您的PATH已正确设置为找到 nutch 命令）：

nutch com.xyz.YourCrawlerMain

其中“com.xyz.YourCrawlerMain”代表您启动抓取的主要类。

这将启动您的爬虫，并正确设置Nutch类路径。

对于配置文件，只需直接在Nutch安装的conf文件夹中更新它们。

<强>更新

我正在做类似的事情，我可以通过这些设置从我的应用程序中进行nutch工作：设置你的类路径以包含Nutch文件夹（因此它可以找到插件），Nutch / conf文件夹并包含所有来自nutch文件夹的Nutch / lib + nutch.jar的罐子。

但请注意您的应用是否在Web容器中运行。我不得不乱用类路径使它工作......