我正在使用Solr和ExtractingRequestHandler索引文档,但我不知道如何做相当于Tika的setMaxStringLength()。
它似乎是索引所有较小的文档而不是大文档的所有文本,这可能意味着它没有设置tika.setMaxStringLength(-1)
是否可以在solrconfig.xml中设置值? 使用curl发布时是否可以将值与其他参数一起传递?
答案 0 :(得分:2)
检查Solr Config文件的限制
<maxFieldLength>10000</maxFieldLength>
这会限制字段长度,这可能会给您带来问题。
您使用的是哪个版本的solr,因为它可能已被弃用。
在Solr 4中删除了maxFieldLength参数。如果限制 字段长度对您很重要,您可以获得类似的行为 使用LimitTokenCountFactory,可以为字段定义 你想限制。例如, 将字段限制为10,000个字符。