keras.tokenize.text_to_sequences和单词嵌入之间有什么区别

时间:2019-06-05 18:56:21

标签: keras tokenize word-embedding

tokenize.fit_on_texttokenize.text_to_sequenceword embeddings之间的区别?

试图在各种平台上搜索,但没有找到合适的答案。

1 个答案:

答案 0 :(得分:0)

单词嵌入是一种表示单词的方法,以使具有相同/相似含义的单词具有相似的表示形式。学习单词嵌入的两种常用算法是Word2Vec和GloVe。

请注意,在针对特定的NLP问题训练神经网络进行文本处理时,也可以从头开始学习单词嵌入。您还可以使用转移学习;在这种情况下,这意味着要从问题的庞大数据集中转移所学单词的表示形式。

关于分词器(假设我们正在谈论的是Keras),取自文档:

1)tokenize.fit_on_text()->>根据词频创建词汇索引。例如,如果您有短语“我的狗与您的狗不同,我的狗更漂亮”,则word_index [“ dog”] = 0,word_index [“ is”] = 1(狗出现3次,出现2次)

2)tokenize.text_to_sequence()->>将每个文本转换为整数序列。基本上,如果您有一个句子,它将为您句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()(返回字典)以验证为单词分配的整数。