应用错误收集

单词嵌入是一种表示单词的方法，以使具有相同/相似含义的单词具有相似的表示形式。学习单词嵌入的两种常用算法是Word2Vec和GloVe。

请注意，在针对特定的NLP问题训练神经网络进行文本处理时，也可以从头开始学习单词嵌入。您还可以使用转移学习；在这种情况下，这意味着要从问题的庞大数据集中转移所学单词的表示形式。

关于分词器（假设我们正在谈论的是Keras），取自文档：

1）tokenize.fit_on_text（）->>根据词频创建词汇索引。例如，如果您有短语“我的狗与您的狗不同，我的狗更漂亮”，则word_index [“ dog”] = 0，word_index [“ is”] = 1（狗出现3次，出现2次）

2）tokenize.text_to_sequence（）->>将每个文本转换为整数序列。基本上，如果您有一个句子，它将为您句子中的每个单词分配一个整数。您可以访问tokenizer.word_index（）（返回字典）以验证为单词分配的整数。