根据关键字为评论者分配论文

时间:2012-06-12 11:23:08

标签: java algorithm keyword

我想知道你是否知道任何可以针对以下情况自动分配的算法:我有一些论文定义了一些关键词,一些评论家定义了一些特定的关键词。我如何进行自动映射,以便审阅者可以查看他/她感兴趣的领域的论文?

3 个答案:

答案 0 :(得分:0)

您基本上需要设计自己的解析器,或根据您的需要专门化现有的解析器。您需要扫描文件,并根据您的关键字搜索并匹配您的标记。然后将具有这些关键字的句子分开并显示给评论者。

我会建议Stanford NLP POS tagger。您需要的每个关键字都属于某些词性。然后,您只需标记完整的文档,然后搜索这些标记,然后对句子进行排序。

答案 1 :(得分:0)

如果您愿意使用外部工具Lucene是一个允许您根据(来自其网站)搜索文本的库

  • 短语查询,通配符查询,邻近查询,范围查询等
  • 进行搜索(例如,标题,作者,内容)
  • 日期范围搜索
  • 按任意字段排序
  • 使用合并结果进行多索引搜索
  • 允许同时更新和搜索

答案 2 :(得分:0)

Apache Lucene可能是一种解决方案。

它允许您将文档索引在RAM目录中或文件系统的真实目录中,然后执行全文搜索。

它提出了许多非常有趣的功能,如过滤器或分析仪。例如:

  • 根据文件的语言删除停用词(例如英语:a,the,of等);
  • 阻止令牌(例如功能,功能,功能等,被视为单个实例);
  • 执行复杂的查询(例如,审核*,keyw?rds,“是或不是”等);
  • 等等......

你应该看看!如果Lucene是您选择:)

的方式,请不要犹豫,问我一些代码示例