Nutch / Solr - 文档中包含至少一个巨大的术语="内容"

时间:2017-06-30 10:51:25

标签: solr nutch

在抓取时,我们在解析大型PDF时遇到了这个问题。抛出的错误如屏幕截图所示。

enter image description here

我尝试更改"内容"到" text_general"或"字符串"但无济于事。

1 个答案:

答案 0 :(得分:0)

通常情况下,在处理PDF和OCR时很有可能发生这种情况,因为文本提取在Nutch内自动化(使用Apache Tika)我建议使用solr.TruncateTokenFilterFactory它自Solr 4.8起可用将任何标记截断为特定长度。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>

在您的情况下,选择一个足够大的值,该值不应影响从文本中提取的其余标记。

另一方面,如果你能够这样做,最好忽略这个标记,在这种情况下使用solr.LengthFilterFactory

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.LengthFilterFactory" min="3" max="7"/>
</analyzer>

在这种情况下,如果任何令牌超出[3,7]范围,将被丢弃。