我认为我有一个简单的问题,但不知怎的,我找不到答案的来源......哪些文档格式可以通过与Railo 4.0打包的Lucene版本编制索引?
不知何故.doc和.pdf似乎进展顺利,但docx和rtf似乎似乎没有被索引....是否有可用的列表?对于所有不支持的格式,cfindex将索引信息的最佳方法是什么?
<cfindex
collection = "#collection#"
action = "update"
type = "file"
key ="#ABSfilepath#"
title="#ABSfilepath#"
>
谢谢!
问题也发布在Railo邮件列表中:web link。
答案 0 :(得分:0)
Railo 4使用Lucene 2.4.1 - 你怎么说?您可以使用相同的方式告知Railo使用的所有第三方软件的版本:找到JAR文件(在lib / ext目录中),打开该存档(使用7-zip或等效文件),然后查看META-INF / MANIFEST。你可以在MF找到这样的内容:
规范 - 标题:Lucene搜索引擎:核心 规范 - 版本:2.4.1 规范 - 供应商:Apache软件基金会 实现 - 标题:org.apache.lucene 实施版本:2.4.1 750176 - 2009-03-04 21:56:52 实施 - 供应商:Apache软件基金会
这似乎是一个非常古老的版本,看起来它没有Apache Lucene website上的任何文档。 (可能可以通过替换相关的JAR来升级Lucene,但这也可能导致依赖性问题;请自担风险。)
由于Lucene网站没有帮助,搜索“lucene 2.4.1可索引文档”会带回a pertinent question about v2.3.2,其中提出:
Lucene java是否支持解析扩展* .docx,* .pptx,* .mpp,即 Microsoft Windows 2007文档?
回复:
Lucene实际上并不支持任何文档类型。怎么了 是某些程序用于将文件解析为可索引的流 并且该流已编入索引。过去曾经是POI。
好的,假设仍然准确,Lucene不控制文件类型Apache POI。
检查JAR告诉我们Railo 4.0使用Apache POI v3.8并查看POI changelog显示.docx支持到达v3.5
因此,应支持您的.docx文件以及其他MS Office格式。如果它肯定没有被索引,你可能需要确定它是POI问题还是Lucene问题还是Railo问题 - 用.doc和.docx文件创建一个简单的可重复测试用例可能是一个很好的第一步。
除此之外,你需要熟悉Lucene / POI的人建议 - 可能有或没有日志文件包含可能的索引/检索错误的细节,或者直接与Lucene交互的方式(不是通过Railo / cfindex )可以帮助确定问题所在。