我正在尝试从Nutch编写我自己的Crawl.java版本,我会做一些不同的东西。我不想使用Nutch源代码。我只是想干净地导入几个罐子并开始使用我的应用程序。我应该如何提供conf / crawl-urlfilter.txt和其他所需的配置文件?
有人可以帮助我吗? 感谢
答案 0 :(得分:1)
一种简单的方法是将代码打包在jar中。确保在开始爬行的类中包含一个main。将该jar文件放在Nutch安装的lib文件夹中。您现在可以使用类似的命令开始抓取(假设您的PATH已正确设置为找到 nutch 命令):
nutch com.xyz.YourCrawlerMain
其中“com.xyz.YourCrawlerMain”代表您启动抓取的主要类。
这将启动您的爬虫,并正确设置Nutch类路径。
对于配置文件,只需直接在Nutch安装的conf文件夹中更新它们。
<强>更新强>
我正在做类似的事情,我可以通过这些设置从我的应用程序中进行nutch工作:设置你的类路径以包含Nutch文件夹(因此它可以找到插件),Nutch / conf文件夹并包含所有来自nutch文件夹的Nutch / lib + nutch.jar的罐子。
但请注意您的应用是否在Web容器中运行。我不得不乱用类路径使它工作......