我刚刚发现了Lucene(Java库)并开始阅读它。
我有兴趣学习一些文学作品(例如Philo,Josephus),并对它们编制索引,然后进行以下类型的分析(类似于一些圣经软件程序所做的那样):
1)在单词y的2或3个单词中找到单词x
2)找到“*手*的工作*” - 会找到“你手中的作品”,“他的手工作”等......
3)找到文学模式(也称为“motiffs”),例如作者使用短语“在那一天”。 (我认为这可能是最棘手的,可能必须找到2-7个单词短语的所有组合然后计算它们并对它们进行排名,例如仅显示前25个)。例如,这可能表明Josephus喜欢使用一组短语,而Philo则喜欢使用另一组短语。
您会推荐哪些开源库? 我的语言偏好可能是1)Python,2)C#,3)Java。 理想情况下,不依赖于任何专有数据库。
谢谢,
Neal
答案 0 :(得分:5)
Lucene是我认为在人气,社区,活动和工具方面最好的一个。我建议你看一下建在Lucene之上的Solr。我找到的另一个开源索引框架是Egothor,我不确定采用率是多少。
here is a survey可能会帮助您选择合适的人。
Here您可以找到更多开源和商业图书馆。我见过他们中很少有人支持超过1种编程语言的绑定。如果你决定使用Lucene,那么你可能需要Luke来进行调试。