如何在Eclipse中为SOLR配置Nutch

时间:2014-04-30 17:29:38

标签: solr web-crawler nutch

我一直在寻找在Eclipse中为SOLR配置Nutch源代码。

以下是我遵循的步骤,我可以成功配置它。

此致

Jayesh Bhoyar

1 个答案:

答案 0 :(得分:4)

Checkout和Build Nutch:

1.使用终端获取SVN的最新源代码。

对于Nutch 1.x(即.trunk)运行:
svn co https://svn.apache.org/repos/asf/nutch/trunk

2.在“conf / nutch-site.xml”中添加“http.agent.name”和“http.robots.agents”以及适当的值。

在这里,您必须将nutch-site.xml.template文件重命名为nutch-site.xml并相应地进行更改。

有关这些属性的说明,请参阅conf / nutch-default.xml。

3.另外,添加“plugin.folders”并将其设置为{PATH_TO_NUTCH_CHECKOUT} / build / plugins。例如。如果Nutch出现在" /home/Desktop/2.x",

将属性设置为:

<property>
   <name>plugin.folders</name>
   <value>/home/Desktop/2.x/build/plugins</value>
</property>

目前没有/ build / plugins文件夹。但是当你运行&#34; ant eclipse&#34;命令你将得到&#34; / build / plugins&#34;在你的{PATH_TO_NUTCH_CHECKOUT}。

这就是为什么写它的绝对路径为{PATH_TO_NUTCH_CHECKOUT} / build / plugins。

不要在这里给出相对路径,因为它不会。

4.运行此命令:
蚂蚁日食

5.在Eclipse中加载项目

5.1。在Eclipse中,单击“文件” - &gt; “导入......”

5.2。选择“现有项目进入工作区”

5.3。在下一个窗口中,将根目录设置为您检查nutch 2.x(或trunk)的位置。单击“完成”。

5.4。您现在将在工作区中看到一个名为2.x(或trunk)的新项目。 等待Eclipse刷新其SVN缓存并构建其工作区。您可以在Eclipse的右下角看到状态。

5.5。在Package Explorer中,右键单击项目“2.x”(或主干),选择“Build Path” - &gt; “配置构建路径”

5.6。在“订购和导出”选项卡中,向下滚动并选择“2.x / conf”(或trunk / conf)。单击“顶部”按钮。遗憾的是,Eclipse将再次构建工作区,但这次不需要花费太多时间。

6.需要下载以下jar文件:

http://mvnrepository.com/artifact/org.elasticsearch/elasticsearch/0.90.1

在eclipse中配置上面的jar文件。

7.“ElasticsearchException”会出现一个错误。将其更改为“ElasticSearchException”(S Capital)

8.现在你已经准备好在eclipse中运行nutch代码了:

8.1。让我们从注入操作开始。

8.2。右键单击“Package Explorer”中的项目 - &gt;选择“运行方式” - &gt;选择“运行配置”。

8.3。创建一个新配置。将其命名为&#34;注入&#34;。

对于1.x ie trunk:将主类设置为:org.apache.nutch.crawl.Injector

对于2.x:将主类设置为:org.apache.nutch.crawl.InjectorJob

8.4。在参数选项卡中,对于程序参数,提供具有种子URL的输入目录的路径。

8.5。将VM Arguments设置为“-Dhadoop.log.dir = logs -Dhadoop.log.file = hadoop.log”

8.6。点击&#34;应用&#34;然后单击&#34;运行&#34;。

8.7。如果一切都设置得很好,那么你应该看到注入操作在控制台上进行。

Nutch 1.x中的课程(ietrunk)

注入: - org.apache.nutch.crawl.Injector

生成: - org.apache.nutch.crawl.Generator

获取: - org.apache.nutch.fetcher.Fetcher

解析: - org.apache.nutch.parse.ParseSegment

updatedb: - org.apache.nutch.crawl.CrawlDb

Nutch 2.x中的课程

注入: - org.apache.nutch.crawl.InjectorJob

生成: - org.apache.nutch.crawl.GeneratorJob

fetch: - org.apache.nutch.fetcher.FetcherJob

解析: - org.apache.nutch.parse.ParserJob

updatedb: - org.apache.nutch.crawl.DbUpdaterJob

希望这有助于!!!!