Railo 4 - Cfindex / Lucene支持哪些文档格式?

时间:2013-09-29 17:14:32

标签: coldfusion lucene apache-poi railo cfindex

我认为我有一个简单的问题,但不知怎的,我找不到答案的来源......哪些文档格式可以通过与Railo 4.0打包的Lucene版本编制索引?

不知何故.doc和.pdf似乎进展顺利,但docx和rtf似乎似乎没有被索引....是否有可用的列表?对于所有不支持的格式,cfindex将索引信息的最佳方法是什么?

        <cfindex 
        collection = "#collection#"   
        action = "update"   
        type = "file"
        key ="#ABSfilepath#"
        title="#ABSfilepath#"
        >

谢谢!

问题也发布在Railo邮件列表中:web link

1 个答案:

答案 0 :(得分:0)

Railo 4使用Lucene 2.4.1 - 你怎么说?您可以使用相同的方式告知Railo使用的所有第三方软件的版本:找到JAR文件(在lib / ext目录中),打开该存档(使用7-zip或等效文件),然后查看META-INF / MANIFEST。你可以在MF找到这样的内容:

  

规范 - 标题:Lucene搜索引擎:核心   规范 - 版本:2.4.1   规范 - 供应商:Apache软件基金会   实现 - 标题:org.apache.lucene   实施版本:2.4.1 750176 - 2009-03-04 21:56:52   实施 - 供应商:Apache软件基金会

这似乎是一个非常古老的版本,看起来它没有Apache Lucene website上的任何文档。 (可能可以通过替换相关的JAR来升级Lucene,但这也可能导致依赖性问题;请自担风险。)

由于Lucene网站没有帮助,搜索“lucene 2.4.1可索引文档”会带回a pertinent question about v2.3.2,其中提出:

  

Lucene java是否支持解析扩展* .docx,* .pptx,* .mpp,即   Microsoft Windows 2007文档?

回复:

  

Lucene实际上并不支持任何文档类型。怎么了   是某些程序用于将文件解析为可索引的流   并且该流已编入索引。过去曾经是POI。

好的,假设仍然准确,Lucene不控制文件类型Apache POI

检查JAR告诉我们Railo 4.0使用Apache POI v3.8并查看POI changelog显示.docx支持到达v3.5

因此,应支持您的.docx文件以及其他MS Office格式。如果它肯定没有被索引,你可能需要确定它是POI问题还是Lucene问题还是Railo问题 - 用.doc和.docx文件创建一个简单的可重复测试用例可能是一个很好的第一步。

除此之外,你需要熟悉Lucene / POI的人建议 - 可能有或没有日志文件包含可能的索引/检索错误的细节,或者直接与Lucene交互的方式(不是通过Railo / cfindex )可以帮助确定问题所在。