标签: javascript machine-learning nlp keyword-extraction
我有一个历史事件的大型数据库,每个事件的描述都在10到30个单词之间。我正在尝试构建一个关键字提取器,以便对整个数据库合理地用1-3克标记每个文档,以便尽可能多地重复使用标记。
首先想到的是TF-IDF,但使用Natural.js的TFIDF工具(不使用n-gram)的效果却很差。
我已经看到了许多有关更高级的ML技术(Biterm主题模型,无监督的聚类等)的有趣研究,但是我似乎找不到任何有用的实现。有什么我想念的吗?