我必须使用包含文本(通常是一个单词)和数字的功能来实现机器学习算法,特别是线性回归。
如何以数字方式表示单词,使得相似的单词由彼此更接近的数字表示,而不是相似单词的数字。
实施例: -
log4j1.2rc1 - > 60
log4j2.8 - > 61
struts1.3.10 - > 90
我检查了 Word2Vec ,但它需要在使用之前训练模型中包含大量单词。我的约束是我不知道所有的单词,我只会像流一样接收它们。
更新好的,我只想说出来,' 字'将成为软件库的各种功能,如库名,文件名,路径等。鉴于文件,ML算法必须识别它所属的库。