创建非字典单词的序列

时间:2020-08-01 23:43:29

标签: python keras scikit-learn nlp

我有一些词向量-

recvfrom,sendto,epoll_pwait,recvfrom,sendto,epoll_pwait getuid,recvfrom,writev,getuid,epoll_pwait,getuid

现在我要标记它们,然后将它们分成序列以馈入模型-

对于标准单词向量,我会做这样的事情-

### Create sequence
vocabulary_size = 20000
tokenizer = Tokenizer(num_words= vocabulary_size)
tokenizer.fit_on_texts(df['text'])
sequences = tokenizer.texts_to_sequences(df['text'])
data = pad_sequences(sequences, maxlen=50)

但是在我的数据中,我有非词典单词,也有一些重复单词。如何将这些数据转换为序列?

0 个答案:

没有答案