我想将维基百科的xml文件索引到Solr。
但我收到错误,无法索引。 Solr具有xml文件的特定格式。我更改了schema.xml
和data-config.xml
文件以适应维基百科文件的标记。
仍然无法索引文件。我的目的是索引维基百科,这是一个30 GB的xml文件。
我如何将所有维基百科文件编入索引?
答案 0 :(得分:1)
基本上,您使用DataImportHandler
和一些XPath从Wikipedia XML中提取您关注的元数据,并将其放在平面Solr字段列表中。