Solr:删除id中带有尖括号的文档

时间:2018-08-03 08:37:24

标签: python solr lucene

我正在尝试从Solr索引中删除文档。我正在使用pysolr,并尝试通过ID和查询删除它们。在这两种情况下,操作都将失败,其ID如下:<div id="inv-taxrate-defaulter-block"> Appliquer un taux de TVA à tous les articles <select id="inv-taxrate-defaulter" autocomplete="off" data-dont-post="true"> <option value="" selected=""> Sélectionnez un taux de TVA </option> <option value="0.0">FR 0</option> <option value="2.1">FR 2.1</option> <option value="5.5">FR 5.5</option> <option value="7.0">FR 7</option> <option value="10.0">FR 10</option> <option value="19.6">FR 19.6</option> <option value="20.0">FR 20</option> </select> </div>,并显示以下错误:

cr-10.1002/(sici)1520-6688(199621)15:2<476::aid-pam7>3.3.co;2-2

https://lucene.apache.org/core/7_2_1/queryparser/org/apache/lucene/queryparser/classic/package-summary.html#Escaping_Special_Characters完全没有提到转义括号。我尝试了一下,但是没有运气。

有什么办法删除这些文档吗?

编辑:更新了ID以匹配错误

1 个答案:

答案 0 :(得分:0)

我最终使用了这样的JSON API:

import requests

url = 'http://localhost:8983/solr/collection/update' # update endpoint of the collection

ids_to_delete = ['a', 'b<c', 'd:e']
requests.post(url, json={ 'delete': ids_to_delete })