sequence = 'I am Bob'
序列已经以某种方式改变,例如字母已被后续字母(a-> b)替换,而空格则替换为'ss':
hashed_seq = 'JssbnssCpc' #for lack of a better word I'm using 'hashed'
根据我的经验,对于文本分类,您可以用一些字典来标记句子/单词,例如:
vocab = {'<PAD>': 0, 'I': 1, 'Bob': 2, 'am': 3}
tokenized_seq = [1,3,2]
在不解码的情况下,如何准备(标记化等)文本分类数据?算法改变后我只有数据。
语言:Python