假设我有一个文件,它具有从A-Z开始的数千种技能。现在,我想创建一个模型,将相似的技能组合在一起(例如神经网络和SVM可以组合在一起)。我知道我可以使用NLP解决此问题,但是我不确定可以使用哪种算法来获得最佳结果。
我是NLP的新手,非常感谢您的帮助。
我最初是在考虑使用语义相似性。所以我可以使用预训练的单词嵌入将单词映射到新的向量空间,在这里我可以计算单词嵌入之间的距离,例如与word2vec或其他实现。但是我不确定。您能给我一些链接或告诉我如何做到这一点,以便获得最佳结果吗?看一下数据[1]:https://i.stack.imgur.com/jGRI0.png
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36943 entries, 0 to 36942
Data columns (total 1 columns):
Skills 36942 non-null object
dtypes: object(1)
memory usage: 288.7+ KB
None
Skills
0 .NET
1 .NET CLR
2 .NET Compact Framework
3 .NET Framework
4 .NET Remoting
答案 0 :(得分:0)
根据您的情况,最好的选择之一可能是Kohonen神经网络。虽然,您需要根据监督学习对数据进行标准化,但是您可以在下面的链接中获得与您的需求相关的所有信息: http://www.kovera.org/neural-network-for-clustering-in-python/