使用大文本文件构建solr索引

时间:2015-03-19 11:33:53

标签: python solr

我有一个大文本文件,格式如下:

00001,234234|234|235|7345
00005,788|298|234|735

您可以将,之前的值视为键,我想要做的是快速而脏的方法来查询这些键并找到每个键的结果集。读了一下后,我发现solr提供了一个很好的框架来做到这一点。

  • 起点是什么?
  • 我可以使用python读取文件并构建此索引(搜索 引擎)使用solr?
  • 有不同的机制吗?

2 个答案:

答案 0 :(得分:1)

你绝对可以使用pysolr这是一个python库。如果数据是键值形式,你可以在python中读取它,如下所示: https://pypi.python.org/pypi/pysolr/3.1.0

要对搜索进行更多控制,您需要修改schema.xml文件以获得文本文件中的密钥。

在SOLR中提取数据后,您可以按照上述链接执行搜索。

答案 1 :(得分:1)

您可以使用UpdateCSV处理程序直接在Solr中索引数据:您只需要在curl调用中的fieldnames参数中指定目标字段名称(或将它们添加为第一行)你的文件,如果这更容易)。无需自定义代码。

请记住检查| - 分隔值的目标字段是否使用该字符拆分为令牌。

有关详细信息,请参阅https://wiki.apache.org/solr/UpdateCSV