我目前正在开展一个项目,我需要使用某种神经网络来预测字符串数据的前提,问题是字符串数据不是神经网络可以处理的东西,所以我研究了将字符串索引为数值的方法。问题是大多数方法都使用单词和单词列表,比如单词bag concept,但这并不适用于我的问题,因为我处理包含符号,字母和数字的日志数据都在一个没有单词或类似的东西。
是否存在可以很好地处理数字的算法,或者是否有某种方式可以有效地以数字形式表示字符串?
答案 0 :(得分:0)
我最终通过将一个单词编程到矢量特征提取程序来解决问题。这种类型的程序根据诸如在它之前的常用词,字母数和出现频率之类的标准将单词转换成多维向量系统。这允许单词的数字表示保持含义和上下文,并允许程序处理它以前从未见过的单词。有许多开源的Word2Vec程序可用,如果你只是google这个名字,任何人都可以找到足够的资源来自己创建一个,如果他们遇到类似的问题。