改进了短文档的关键字提取

时间:2018-11-25 23:21:38

标签: javascript machine-learning nlp keyword-extraction

我有一个历史事件的大型数据库,每个事件的描述都在10到30个单词之间。我正在尝试构建一个关键字提取器,以便对整个数据库合理地用1-3克标记每个文档,以便尽可能多地重复使用标记。

首先想到的是TF-IDF,但使用Natural.js的TFIDF工具(不使用n-gram)的效果却很差。

我已经看到了许多有关更高级的ML技术(Biterm主题模型,无监督的聚类等)的有趣研究,但是我似乎找不到任何有用的实现。有什么我想念的吗?

0 个答案:

没有答案