问题:
我需要根据他们即将创建的列表的标题(5-15个单词)向用户建议标记。
我们有大约30个预先确定的标签 -
Gaming, Movies, TV shows, Documentaries, Books, Music, Art, History, People, Adventure, Sports, Cooking, Travel, Places, Food, Drinks, Fitness, DIY, Technology, Science, Cars, Bikes, Comedy, Shopping, Clothes, Fashion, Photography, Nature, etc.
因此,例如,对于标题为的列表,全球最昂贵的精致餐厅' 建议的标签可能是 (食物,地方,饮料,旅游)。
它不需要非常准确,只需要令人满意地工作,我相信随着我们的用户提供更多的培训数据,它会变得更好。我还没有任何有关监督学习的培训数据。
我发现自己迷失在机器学习和自然语言处理的广阔空间中。如果有人可以建议我应该为这个特定任务使用哪些方法/算法/库,以及我应该在它之前做的背景阅读,这将是非常有用的。
由于
答案 0 :(得分:1)
您可以使用word2vec。获取一些预训练模型,计算标签的向量。然后计算新标题的向量。找到标题向量和每个标记向量之间的余弦相似性。获取描述标签,其与标题的相似性大于某个阈值。