如何将符号序列编码为数字形式而不丢失信息?

时间:2015-04-29 04:36:11

标签: string encoding neural-network feature-extraction

我想使用神经网络对字符串进行分类。 '问题'是神经网络接受数字输入,所以我需要一种将字符串编码为数字向量的方法。是否存在解决此类问题的标准方法?

我正在考虑计算n-gram,但如果我不想丢失任何信息,这种方法会产生巨大的特征向量,因为我需要计算从1-gram到字符串长度的所有内容-grams。正确?

那么,是否有一种更简洁的方法将字符串编码为数值数据?一个维护有关符号频率及其顺序的信息?

0 个答案:

没有答案