假设我们有一个由sunspot / solr / lucene(或任何其他搜索引擎)索引的文章列表。
如何使用给定文章查找类似文章?
是否应该使用恢复工具完成,例如: http://www.wordsfinder.com/api_Keyword_Extractor.php,或来自http://developer.yahoo.com/yql/console的termextract,或http://www.alchemyapi.com/api/demo.html?
答案 0 :(得分:5)
您似乎正在寻找MoreLikeThis功能。
答案 1 :(得分:1)
您要做的与我在this answer中概述的任务非常相似。
简而言之,您需要为每个文档生成摘要,您可以将其用作查询以将其与其他文档进行比较。文档摘要可以像该文档中的前N个术语一样简单(不包括停用词)。您可以非常轻松地从Lucene文档中生成前N个术语而无需使用任何第三方工具,SO和web上有大量示例可以执行此操作。