Nutch 2.1有哪些数据库选项?

时间:2012-11-20 23:25:49

标签: nutch

我正试图在一台Windows机器上测试Nutch 2.1。以下命令终止:

nutch crawl seeds -dir crawl -solr http://somehost:8983/solr -depth 2 -topN 2

...有几个例外的追溯:

  • java.net.ConnectionException: Connection refused
  • GoraException
  • SQLTransientConnectionException
  • org.hsqldb.HsqlException

这与此帖相同:connection refused error when running Nutch 2

看起来Nutch 2想要安装某种数据库,但在我所看到的(稀疏)文档中没有提到它。

生产环境最终将成为一个linux / Hadoop集群,但目前我只是想让一个简单的本地系统开箱即用。

那么简单的Nutch数据库有哪些选择?你如何告诉Nutch和Gora数据库?一旦我们的Hadoop集群启动并运行,HBase可能是一个很好的答案。然而;与此同时,还有一个简单,甚至很慢的数据库,可以在单个系统上进行初步探索吗?

2 个答案:

答案 0 :(得分:4)

我尝试过使用MYSQL和HBASE。

对于MYSQL,此链接有助于消除大部分怪癖:http://nlp.solutions.asia/?p=180

对于HBASE,高于0.90.x的版本会导致问题(无效的主机值对)。我已经能够使用0.90.5

答案 1 :(得分:3)

Nutch 2.1的数据库连接信息在conf / gora.properties文件中指定(应该已经看到了)