如何将.xml格式的维基百科文件索引到solr中

时间:2012-04-03 19:54:44

标签: xml solr indexing wikipedia

我想将维基百科的xml文件索引到Solr。

但我收到错误,无法索引。 Solr具有xml文件的特定格式。我更改了schema.xmldata-config.xml文件以适应维基百科文件的标记。

仍然无法索引文件。我的目的是索引维基百科,这是一个30 GB的xml文件。

我如何将所有维基百科文件编入索引?

1 个答案:

答案 0 :(得分:1)

There's an example section in the DataImportHandler documentation for exactly this: indexing Wikipedia.

基本上,您使用DataImportHandler和一些XPath从Wikipedia XML中提取您关注的元数据,并将其放在平面Solr字段列表中。