我正在尝试将UIMA与Solr联系起来。我已经下载了Solr 3.5 dist,并使用solrcell和curl通过cygwin在Windows 7上成功运行nutch和tika。
首先,我将6个罐子从solr/contrib/uima/lib
复制到solr中的工作/lib
。
接下来,我阅读了solr/contrib/uima/lib
中的 readme.txt 文件并编辑了我的 solrconfig.xml 和 schema.xml ,但无济于事。
然后我发现这个链接似乎更适用,因为我不关心使用Alchemy或OpenCalais: http://code.google.com/a/apache-extras.org/p/rondhuit-uima/?redir = 1
仍然 - 当我运行一个通过solrcell导入pdf的curl命令时,我没有获得额外的UIMA字段,也没有在我的日志上获得任何内容。虽然解析了test.pdf,但我在Solr中看到了pdf:
curl 'http://localhost:8080/solr/update/extract?fmap.content=content&literal.id=doc1&commit=true' -F "file=@test.pdf"
solrconfig.xml中
<updateRequestProcessorChain name="uima">
<processor class="org.apache.solr.uima.processor.UIMAUpdateRequestProcessorFactory">
<lst name="uimaConfig">
<lst name="runtimeParameters">
<str name="host">http://localhost</str>
<str name="port">8080</str>
</lst>
<str name="analysisEngine">C:\uima\desc\com\rondhuit\uima\desc\NextAnnotatorDescriptor.xml</str>
<bool name="ignoreErrors">true</bool>
<str name="logField">id</str>
<lst name="analyzeFields">
<bool name="merge">false</bool>
<arr name="fields">
<str>content</str>
</arr>
</lst>
<lst name="fieldMappings">
<lst name="type">
<str name="name">com.rondhuit.uima.next.NamedEntity</str>
<lst name="mapping">
<str name="feature">entity</str>
<str name="fieldNameFeature">uname</str>
<str name="dynamicField">*_sm</str>
</lst>
</lst>
</lst>
</lst>
</processor>
<processor class="solr.LogUpdateProcessorFactory" />
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
<requestHandler name="/update/uima" class="solr.XmlUpdateRequestHandler">
<lst name="defaults">
<str name="update.chain">uima</str>
</lst>
</requestHandler>
我也调整了我的请求亨德:
<requestHandler name="/update" class="solr.XmlUpdateRequestHandler">
<lst name="defaults">
<str name="update.processor">uima</str>
</lst>
</requestHandler>
SCHEMA.XML
<!-- fields for UIMA -->
<field name="uname" type="string" indexed="true" stored="true" multiValued="true" required="false"/>
<dynamicField name="*_sm" type="string" indexed="true" stored="true"/>
我所要做的就是让UIMA从文本中提取名称(仅作为演示开始)并且无法弄清楚我做错了什么。 提前感谢您阅读本文。
答案 0 :(得分:1)
不确定这是否得到了解决,但万一其他人正在寻找,我昨天遇到了同样的问题。想通了我调用/ update / extract来使用solrcell,它不使用uima,因为它已集成到/ update中。