日光浴室不提取PDF内容

时间:2013-04-29 16:59:35

标签: solarium

今天我第一次使用提取物。日光浴从PDF文档中提取元数据并插入索引,但不保存内容。我使用了示例 2.7 Extract query (来自Solarium示例),并将 index.html 替换为 myfile.pdf 但不起作用。谁知道会发生什么?感谢

1 个答案:

答案 0 :(得分:0)

我有同样的问题。我不知道为什么,但是,改变

$ query-> addFieldMapping('content','text');

$ query-> addFieldMapping('fmap.content','text');

对我有用。

问题可能出在/ update / extract RequestHandler

的solrconfig.xml定义中
<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
</lst>
</requestHandler>

我还验证过,从Html文件中提取数据,如果不应用我之前解释过的修改,就无法按预期工作。如果您使用'fmap.content'再次运行提取测试,您将在'content'字段中看到html页面的内容。

我使用Solr 4.4.0和Solarium 3.1.2

进行了这些测试

希望有所帮助