应用错误收集

我有一些词向量-

recvfrom，sendto，epoll_pwait，recvfrom，sendto，epoll_pwait getuid，recvfrom，writev，getuid，epoll_pwait，getuid

现在我要标记它们，然后将它们分成序列以馈入模型-

对于标准单词向量，我会做这样的事情-

### Create sequence
vocabulary_size = 20000
tokenizer = Tokenizer(num_words= vocabulary_size)
tokenizer.fit_on_texts(df['text'])
sequences = tokenizer.texts_to_sequences(df['text'])
data = pad_sequences(sequences, maxlen=50)

但是在我的数据中，我有非词典单词，也有一些重复单词。如何将这些数据转换为序列？

创建非字典单词的序列

0 个答案: