今天我第一次使用提取物。日光浴从PDF文档中提取元数据并插入索引,但不保存内容。我使用了示例 2.7 Extract query (来自Solarium示例),并将 index.html 替换为 myfile.pdf 但不起作用。谁知道会发生什么?感谢
答案 0 :(得分:0)
我有同样的问题。我不知道为什么,但是,改变
$ query-> addFieldMapping('content','text');
到
$ query-> addFieldMapping('fmap.content','text');
对我有用。
问题可能出在/ update / extract RequestHandler
的solrconfig.xml定义中<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
</lst>
</requestHandler>
我还验证过,从Html文件中提取数据,如果不应用我之前解释过的修改,就无法按预期工作。如果您使用'fmap.content'再次运行提取测试,您将在'content'字段中看到html页面的内容。
我使用Solr 4.4.0和Solarium 3.1.2
进行了这些测试希望有所帮助