我正在尝试索引数据库中的一些数据。数据库表中表示的每个页面都有一些链接文档。
我注意到索引通常有效,但Tika中的字段'text'完全被忽略而根本没有取出,在日志中没有任何合理的例外。
我的数据记录:http://pastebin.com/XdwenPTE,我的架构:http://pastebin.com/zXEuFTHE,我的solr配置:http://pastebin.com/qLiuT0tq
你能看看我的配置并告诉我,我是否有任何想法?当我对索引数据进行查询时,甚至没有当前字段'text' - 为什么?
[编辑] 我将传递给tika的文件路径更改为:
url="${page_resource_list.FILE_PATH}"
但是文件内容仍然没有编入索引。有任何想法吗?我有一些例外,说没有找到文件(这很好,因为有些文件丢失了)但是现有文件的任何问题都没有例外。蒂卡没有索引任何东西。
这似乎与此处描述的问题相同:Solr's TikaEntityProcessor not working - 但这真的没有修复吗?
答案 0 :(得分:0)
FILE_PATH的实体引用为${page_resource_list.FILE_PATH}
,而非${page_content.FILE_PATH}
(仅将CONTENT定义为列)。
您还有LogTransformer可以帮助您在索引时为您提供有关字段实际内容的更好调试信息。