情况如下:我们必须为客户提供基于网络的搜索引擎,该搜索引擎将在其路径记录在数据库中的文档列表中搜索给定字符串。
支持的文档是PDF,Word,Excel,TXT。
所以我们有两个选择:
有人听说过有关此问题的任何良好的开源解决方案吗?
谢谢!
编辑:文档仅 INTRANET ,因此this不是可行的解决方案。
答案 0 :(得分:4)
您考虑过Lucene了吗?虽然Java-bsaed,但您可以选择其他实现平台。
您的解决方案需要2个部分,一个索引器(可以不断地遍历您的文档数据库创建适当的索引)和您的搜索应用程序(这将是基于Web的,并搜索您的索引以获取相应的页面)。
Lucene似乎是事实上的选择。此外,还有很多信息在SO周围浮动(如果你遇到困难,还有足够的专家,我自己也会被排除在外帮助你!)
祝你好运!答案 1 :(得分:1)
你可能正在寻找Lucene:
http://wiki.apache.org/lucene-java
它不是在php或asp中,但它是你会得到的最好的搜索引擎之一。
也就是说,假设您无法让谷歌为您索引内容。
答案 2 :(得分:0)
如果您使用的是Microsoft,那么 Microsoft Index Service 是一个非常好的解决方案。我一直在一家公司使用它作为他们的整个Intranet,它就像一个魅力。花了我半天的时间让它运转起来。
如果您希望索引服务也为PDF索引,则需要安装一个名为iFilter的Adobe小工具。
好处是每个Windows Server安装都可以使用索引服务,这使您无需安装内容。