答案 0 :(得分:0)
通常情况下,在处理PDF和OCR时很有可能发生这种情况,因为文本提取在Nutch内自动化(使用Apache Tika)我建议使用solr.TruncateTokenFilterFactory
它自Solr 4.8起可用将任何标记截断为特定长度。
<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>
在您的情况下,选择一个足够大的值,该值不应影响从文本中提取的其余标记。
另一方面,如果你能够这样做,最好忽略这个标记,在这种情况下使用solr.LengthFilterFactory
:
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.LengthFilterFactory" min="3" max="7"/>
</analyzer>
在这种情况下,如果任何令牌超出[3,7]
范围,将被丢弃。