我有一些词向量-
recvfrom,sendto,epoll_pwait,recvfrom,sendto,epoll_pwait getuid,recvfrom,writev,getuid,epoll_pwait,getuid
现在我要标记它们,然后将它们分成序列以馈入模型-
对于标准单词向量,我会做这样的事情-
### Create sequence
vocabulary_size = 20000
tokenizer = Tokenizer(num_words= vocabulary_size)
tokenizer.fit_on_texts(df['text'])
sequences = tokenizer.texts_to_sequences(df['text'])
data = pad_sequences(sequences, maxlen=50)
但是在我的数据中,我有非词典单词,也有一些重复单词。如何将这些数据转换为序列?