我如何用数字表示单词,使得相似的单词具有彼此接近的数字

时间:2017-10-08 19:00:29

标签: java python machine-learning word2vec

我必须使用包含文本(通常是一个单词)和数字的功能来实现机器学习算法,特别是线性回归。

如何以数字方式表示单词,使得相似的单词由彼此更接近的数字表示,而不是相似单词的数字。

实施例: -

log4j1.2rc1 - > 60

log4j2.8 - > 61

struts1.3.10 - > 90

我检查了 Word2Vec ,但它需要在使用之前训练模型中包含大量单词。我的约束是我不知道所有的单词,我只会像流一样接收它们。

更新好的,我只想说出来,' '将成为软件库的各种功能,如库名,文件名,路径等。鉴于文件,ML算法必须识别它所属的库。

0 个答案:

没有答案