Solr的架构及其工作原理

时间:2012-06-22 00:31:06

标签: solr lucene indexing schema nutch

嘿所以我开始研究Solr,并对Solr的工作方式提出了几个问题。我知道模式定义了Solr应用程序中存储和索引的内容。但我很担心索尔如何知道“内容”是网站的内容还是网址是网址?

我的主要目标是尝试从网站中提取电话号码,我希望Solr能够很好地吐出1234567890.

2 个答案:

答案 0 :(得分:0)

您需要通过声明所有字段及其字段类型在Solr schema.xml中定义它。然后,您可以在Solr中查询要搜索的任何字段。

请参阅:http://wiki.apache.org/solr/SchemaXml

答案 1 :(得分:0)

Solr不会自动为网站上的内容编制索引。您需要告诉它如何索引您的内容。 Solr只知道你告诉它要知道的内容。提取电话号码听起来非常简单,因此编写更新脚本或在线查找电话不应成为问题。祝你好运!