Question

今天我第一次使用提取物。日光浴从PDF文档中提取元数据并插入索引，但不保存内容。我使用了示例 2.7 Extract query （来自Solarium示例），并将 index.html 替换为 myfile.pdf 但不起作用。谁知道会发生什么？感谢

Answer 1

我有同样的问题。我不知道为什么，但是，改变

$ query-＆gt; addFieldMapping（'content'，'text'）;

到

$ query-＆gt; addFieldMapping（'fmap.content'，'text'）;

对我有用。

问题可能出在/ update / extract RequestHandler

的solrconfig.xml定义中

<requestHandler name="/update/extract" class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
</lst>
</requestHandler>

我还验证过，从Html文件中提取数据，如果不应用我之前解释过的修改，就无法按预期工作。如果您使用'fmap.content'再次运行提取测试，您将在'content'字段中看到html页面的内容。

我使用Solr 4.4.0和Solarium 3.1.2

进行了这些测试

希望有所帮助

日光浴室不提取PDF内容

1 个答案: