Question

如何使用Solr对通过nutch抓取获得的文档进行语言识别？

我安装了 Nutch 1.9 和 Solr 4.8.1 。我添加了一个名为"core-test"的新核心在Solr Admin页面中通过Core Admin进行solr，我按照Solr wiki中的步骤进行文档索引期间的语言检测。

我通过添加字段

修改了core-test / conf中的 schema.xml

<field name="language_s" type="string" stored="true" indexed="true"/>

然后，我使用Nutch按

抓取一组网页

crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch的工作正常，但文档的语言未被识别，即当我在http://localhost:8983/solr/#/core-test/query中设置language_s时查询时，我无法获取字段q ":"。

Answer 1

您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/nutch-site.xml：

上面的标签启用了与Nutch捆绑在一起的语言检测插件。如Nutch's wiki中所述，插件将添加一个名为“lang”的字段，其中包含文档的语言代码。