我有一个大文本文件,格式如下:
00001,234234|234|235|7345
00005,788|298|234|735
您可以将,
之前的值视为键,我想要做的是快速而脏的方法来查询这些键并找到每个键的结果集。读了一下后,我发现solr提供了一个很好的框架来做到这一点。
答案 0 :(得分:1)
你绝对可以使用pysolr这是一个python库。如果数据是键值形式,你可以在python中读取它,如下所示: https://pypi.python.org/pypi/pysolr/3.1.0
要对搜索进行更多控制,您需要修改schema.xml文件以获得文本文件中的密钥。
在SOLR中提取数据后,您可以按照上述链接执行搜索。
答案 1 :(得分:1)
您可以使用UpdateCSV
处理程序直接在Solr中索引数据:您只需要在curl调用中的fieldnames
参数中指定目标字段名称(或将它们添加为第一行)你的文件,如果这更容易)。无需自定义代码。
请记住检查|
- 分隔值的目标字段是否使用该字符拆分为令牌。
有关详细信息,请参阅https://wiki.apache.org/solr/UpdateCSV。