背景: 我有一个小型搜索门户网站的数据集。数据集包括用户搜索的所有搜索查询/关键字。
格式就像
Keyword num_of_searches
Yahoo 5098
Google 8873
エロ動画 98982
... ...
(该门户网站位于JP中,因此数据集中有许多日语关键字。)
问题:
是否有任何现有的机器学习模型可以将所有关键字归为几类? (我听说过“关键字聚类”,但现在不知道使用哪种模型。)
答案 0 :(得分:0)
您可以尝试使用预训练的单词嵌入,然后对嵌入向量进行聚类。可以使用t-SNE或PCA可视化单词嵌入https://projector.tensorflow.org,以获取更多见解。