标签: string encoding neural-network feature-extraction
我想使用神经网络对字符串进行分类。 '问题'是神经网络接受数字输入,所以我需要一种将字符串编码为数字向量的方法。是否存在解决此类问题的标准方法?
我正在考虑计算n-gram,但如果我不想丢失任何信息,这种方法会产生巨大的特征向量,因为我需要计算从1-gram到字符串长度的所有内容-grams。正确?
那么,是否有一种更简洁的方法将字符串编码为数值数据?一个维护有关符号频率及其顺序的信息?