Question

在抓取时，我们在解析大型PDF时遇到了这个问题。抛出的错误如屏幕截图所示。

我尝试更改＆＃34;内容＆＃34;到＆＃34; text_general＆＃34;或＆＃34;字符串＆＃34;但无济于事。

Answer 1

通常情况下，在处理PDF和OCR时很有可能发生这种情况，因为文本提取在Nutch内自动化（使用Apache Tika）我建议使用solr.TruncateTokenFilterFactory它自Solr 4.8起可用将任何标记截断为特定长度。

<filter class="solr.TruncateTokenFilterFactory" prefixLength="5"/>

在您的情况下，选择一个足够大的值，该值不应影响从文本中提取的其余标记。

另一方面，如果你能够这样做，最好忽略这个标记，在这种情况下使用solr.LengthFilterFactory：

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.LengthFilterFactory" min="3" max="7"/>
</analyzer>

在这种情况下，如果任何令牌超出[3,7]范围，将被丢弃。