我一直在寻找在Eclipse中为SOLR配置Nutch源代码。
以下是我遵循的步骤,我可以成功配置它。
此致
Jayesh Bhoyar
答案 0 :(得分:4)
Checkout和Build Nutch:
1.使用终端获取SVN的最新源代码。
对于Nutch 1.x(即.trunk)运行:
svn co https://svn.apache.org/repos/asf/nutch/trunk
2.在“conf / nutch-site.xml”中添加“http.agent.name”和“http.robots.agents”以及适当的值。
在这里,您必须将nutch-site.xml.template文件重命名为nutch-site.xml并相应地进行更改。
有关这些属性的说明,请参阅conf / nutch-default.xml。
3.另外,添加“plugin.folders”并将其设置为{PATH_TO_NUTCH_CHECKOUT} / build / plugins。例如。如果Nutch出现在" /home/Desktop/2.x",
将属性设置为:
<property>
<name>plugin.folders</name>
<value>/home/Desktop/2.x/build/plugins</value>
</property>
目前没有/ build / plugins文件夹。但是当你运行&#34; ant eclipse&#34;命令你将得到&#34; / build / plugins&#34;在你的{PATH_TO_NUTCH_CHECKOUT}。
这就是为什么写它的绝对路径为{PATH_TO_NUTCH_CHECKOUT} / build / plugins。
不要在这里给出相对路径,因为它不会。
4.运行此命令:
蚂蚁日食
5.在Eclipse中加载项目
5.1。在Eclipse中,单击“文件” - &gt; “导入......”
5.2。选择“现有项目进入工作区”
5.3。在下一个窗口中,将根目录设置为您检查nutch 2.x(或trunk)的位置。单击“完成”。
5.4。您现在将在工作区中看到一个名为2.x(或trunk)的新项目。 等待Eclipse刷新其SVN缓存并构建其工作区。您可以在Eclipse的右下角看到状态。
5.5。在Package Explorer中,右键单击项目“2.x”(或主干),选择“Build Path” - &gt; “配置构建路径”5.6。在“订购和导出”选项卡中,向下滚动并选择“2.x / conf”(或trunk / conf)。单击“顶部”按钮。遗憾的是,Eclipse将再次构建工作区,但这次不需要花费太多时间。
6.需要下载以下jar文件:
http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1
在eclipse中配置上面的jar文件。
7.“ElasticsearchException”会出现一个错误。将其更改为“ElasticSearchException”(S Capital)
8.现在你已经准备好在eclipse中运行nutch代码了:
8.1。让我们从注入操作开始。
8.2。右键单击“Package Explorer”中的项目 - &gt;选择“运行方式” - &gt;选择“运行配置”。
8.3。创建一个新配置。将其命名为&#34;注入&#34;。
对于1.x ie trunk:将主类设置为:org.apache.nutch.crawl.Injector
对于2.x:将主类设置为:org.apache.nutch.crawl.InjectorJob
8.4。在参数选项卡中,对于程序参数,提供具有种子URL的输入目录的路径。
8.5。将VM Arguments设置为“-Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log”
8.6。点击&#34;应用&#34;然后单击&#34;运行&#34;。
8.7。如果一切都设置得很好,那么你应该看到注入操作在控制台上进行。
Nutch 1.x中的课程(ietrunk)
注入: - org.apache.nutch.crawl.Injector
生成: - org.apache.nutch.crawl.Generator
获取: - org.apache.nutch.fetcher.Fetcher
解析: - org.apache.nutch.parse.ParseSegment
updatedb: - org.apache.nutch.crawl.CrawlDb
Nutch 2.x中的课程
注入: - org.apache.nutch.crawl.InjectorJob
生成: - org.apache.nutch.crawl.GeneratorJob
fetch: - org.apache.nutch.fetcher.FetcherJob
解析: - org.apache.nutch.parse.ParserJob
updatedb: - org.apache.nutch.crawl.DbUpdaterJob
希望这有助于!!!!