配置SOLR应用程序以索引pdf文档

时间:2013-11-28 09:55:00

标签: java solr lucene

我是Apache SOLR / Lucene的新手,但是想用它来索引PDF文档。

我已按照官方教程开始学习:

[Apache SOLR 4.6.0 Tutorial][1]

我能够通过标题"索引数据"来达到教程中的要点。他们索引两个.xml文件。

但是,我无法在该部分中的以下行以及之后的所有部分之后执行任何操作。

You have now indexed two documents in Solr, and committed these changes. You can now search for "solr" by loading the "Query" tab in the Admin interface, and entering "solr" in the "q" text box. Clicking the "Execute Query" button should display the following URL containing one result... 

它太混乱,信息太少。

任何人都可以指出一些关于SOLR的基础教程,该教程教授如何配置SOLR和索引.pdf文件。

从教程中可以看出,Solr Cell(ExtractingRequestHandler)是最佳选择。但是这是什么以及如何使用我参考教程中的步骤进行的设置是我不理解/理解的。

关于堆栈溢出以及使用SOLR的pdf索引还有一些问题,但它们要么太具体,要么答案太高,无法理解。我需要一个基本的逐步教程,用于使用SOLR进行pdf索引。

感谢阅读!

1 个答案:

答案 0 :(得分:1)

首先,您应该了解Solr的实际工作方式。

不是很标准但是很接近:

- > :可翻译为

Solr中的核心 - > SQL中的表

Solr中的文档 - >表中的记录

文档可以包含任意数量的字段(如表中的列)。 (ID,NAME,EMAIL等......)

字段有一个类型(像一个变量(来自Lucene的类)(String,UUID等...)) 可以对字段建立索引(可搜索)并存储(按原样检索)。

现在你必须决定你想要的实现。单核(表)实现是最简单的,但对于Solr的几乎所有用例,您都需要使用多核设置。

在您下载的Solr 4.6.0目录中,浏览到示例并使用以下命令运行start.jar:java -Dsolr.solr.home=multicore -jar star.jar

打开http://localhost:8983/solr浏览,你会通过观察学到很多东西。

接下来转到示例下的multicore目录。

您将看到solr.xml文件。打开它。在底部,您将定义核心。添加一行YOUR_CORE_NAME

完成后,保存文件,运行solr。您会看到一系列错误:solrconfig.xml无法找到schema.xmlYOUR_CORE_NAME

这些文件非常重要,因为:

solrconfig.xml:包含您的核心(表)在Solr运行时的行为方式。非常可定制,非常有用,但对于启动Solr的人来说太多了(你可以随时学习)。现在我要让你从其他核心之一复制solrconfig.xml

schema.xml:这就像你的表定义一样。这是您定义“字段”(列)的位置。查看其他核心的架构并阅读

http://wiki.apache.org/solr/SchemaXml

制作一个简单的架构,3个字段。密切关注分析仪,现在使用Lucene标准分析仪。它非常好,适用于大多数用例。

现在目录结构:在multicore内,创建一个名为YOUR_CORE_NAME的文件夹。

YOUR_CORE_NAME下:制作一个conf文件夹,将solrconfig.xmlschema.xml放在此文件夹中。

开始solr。它现在应该启动而没有任何错误。

一旦你有了这个,继续调整schema.xml,直到你想出你想要的东西。