我有一篇约10K篇的文章。对于每篇文章,我想提取关键字(标签)。因此,对于每篇文章,我希望根据文章中文章中频率与文章中其他文章的频率对文章中的标记化术语进行排名 - 沿着整个语料库中的TF-IDF行。
我正在使用elasticsearch(上周第一次使用它)。我很难找到如何做到这一点的参考资料。我发现了许多链接,包括来自SO的链接:
Fast keyword extraction in elasticsearch
来自谷歌论坛的链接:
https://groups.google.com/forum/#!msg/elasticsearch/1XEe_Sv8JrE/kOQnSB7riE0J
但是我希望找到的是一个明确的A到Z指南(因为它几乎可以用于任何事情)。
我将继续谷歌并寻找其他资源,但任何有关资源或如何做到这一点的建议将是一个很大的帮助!谢谢。