应用错误收集

sequence = 'I am Bob'

序列已经以某种方式改变，例如字母已被后续字母（a-> b）替换，而空格则替换为'ss'：

hashed_seq = 'JssbnssCpc' #for lack of a better word I'm using 'hashed'

根据我的经验，对于文本分类，您可以用一些字典来标记句子/单词，例如：

vocab = {'<PAD>': 0, 'I': 1, 'Bob': 2, 'am': 3}
tokenized_seq = [1,3,2]

在不解码的情况下，如何准备（标记化等）文本分类数据？算法改变后我只有数据。

语言：Python