我想知道你是否知道任何可以针对以下情况自动分配的算法:我有一些论文定义了一些关键词,一些评论家定义了一些特定的关键词。我如何进行自动映射,以便审阅者可以查看他/她感兴趣的领域的论文?
答案 0 :(得分:0)
您基本上需要设计自己的解析器,或根据您的需要专门化现有的解析器。您需要扫描文件,并根据您的关键字搜索并匹配您的标记。然后将具有这些关键字的句子分开并显示给评论者。
我会建议Stanford NLP POS tagger。您需要的每个关键字都属于某些词性。然后,您只需标记完整的文档,然后搜索这些标记,然后对句子进行排序。
答案 1 :(得分:0)
如果您愿意使用外部工具Lucene是一个允许您根据(来自其网站)搜索文本的库
答案 2 :(得分:0)
Apache Lucene可能是一种解决方案。
它允许您将文档索引在RAM目录中或文件系统的真实目录中,然后执行全文搜索。
它提出了许多非常有趣的功能,如过滤器或分析仪。例如:
你应该看看!如果Lucene是您选择:)