Solr中Nutch文档的语言检测

时间:2015-05-19 09:27:31

标签: apache solr nutch language-detection

如何使用Solr对通过nutch抓取获得的文档进行语言识别?

我安装了 Nutch 1.9 Solr 4.8.1 。 我添加了一个名为"core-test"的新核心  在Solr Admin页面中通过Core Admin进行solr,我按照Solr wiki中的步骤进行文档索引期间的语言检测。

我通过添加字段

修改了core-test / conf中的 schema.xml
<field name="language_s" type="string" stored="true" indexed="true"/>

然后,我使用Nutch按

抓取一组网页
crawl seed.txt Test http://localhost:8983/solr/core-test 2

Nutch的工作正常,但文档的语言未被识别,即当我在http://localhost:8983/solr/#/core-test/query中设置language_s时查询时,我无法获取字段q ":"

1 个答案:

答案 0 :(得分:2)

您需要启用Nutch的语言检测。将下面的xml标记复制到Nutch_HOME/conf/nutch-site.xml

<property> <name>plugin.includes</name> <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)|language-identifier</value> </property>

上面的标签启用了与Nutch捆绑在一起的语言检测插件。如Nutch's wiki中所述,插件将添加一个名为“lang”的字段,其中包含文档的语言代码。