如何为分类器准备“散列”文本数据

时间:2017-11-07 17:12:33

标签: python scikit-learn nlp

sequence = 'I am Bob'

序列已经以某种方式改变,例如字母已被后续字母(a-> b)替换,而空格则替换为'ss':

hashed_seq = 'JssbnssCpc' #for lack of a better word I'm using 'hashed'

根据我的经验,对于文本分类,您可以用一些字典来标记句子/单词,例如:

vocab = {'<PAD>': 0, 'I': 1, 'Bob': 2, 'am': 3}
tokenized_seq = [1,3,2]

在不解码的情况下,如何准备(标记化等)文本分类数据?算法改变后我只有数据。

语言:Python

0 个答案:

没有答案