开源/源文本索引和搜索的建议

时间:2010-12-21 06:21:55

标签: search open-source full-text-search indexing shared-libraries

我刚刚发现了Lucene(Java库)并开始阅读它。

我有兴趣学习一些文学作品(例如Philo,Josephus),并对它们编制索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的那样):

1)在单词y的2或3个单词中找到单词x

2)找到“*手*的工作*” - 会找到“你手中的作品”,“他的手工作”等......

3)找到文学模式(也称为“motiffs”),例如作者使用短语“在那一天”。 (我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合然后计算它们并对它们进行排名,例如仅显示前25个)。例如,这可能表明Josephus喜欢使用一组短语,而Philo则喜欢使用另一组短语。

您会推荐哪些开源库? 我的语言偏好可能是1)Python,2)C#,3)Java。 理想情况下,不依赖于任何专有数据库。

谢谢,

Neal

1 个答案:

答案 0 :(得分:5)

Lucene是我认为在人气,社区,活动和工具方面最好的一个。我建议你看一下建在Lucene之上的Solr。我找到的另一个开源索引框架是Egothor,我不确定采用率是多少。

here is a survey可能会帮助您选择合适的人。

Here您可以找到更多开源和商业图书馆。我见过他们中很少有人支持超过1种编程语言的绑定。如果你决定使用Lucene,那么你可能需要Luke来进行调试。