如何在Solr中查询PDF?

时间:2010-07-11 21:05:31

标签: java pdf lucene solr

我向Solr添加了PDF文档

curl "http://localhost:8983/solr/update/extract?literal.id=doc2&captureAttr=true&defaultField=text&fmap.div=foo_t&capture=div"  -F "tutorial=@a.pdf"

我想查询单词“errors”

http://localhost:8983/solr/select/?q=errors&version=2.2&start=0&rows=10&indent=on

我没有结果。

但是,如果我查询单词“java”,我会得到一页(添加的PDF文本),而在可见文本中则会出现“错误”一词。

P.S。我是Lucene和Solr的新手,我不明白为什么不能搜索pdf中的每个单词。

1 个答案:

答案 0 :(得分:2)

看看这个类似的问题和answer

尝试使用分析器查看索引中插入的单词。