tokenize.fit_on_text
,tokenize.text_to_sequence
和word embeddings
之间的区别?
试图在各种平台上搜索,但没有找到合适的答案。
答案 0 :(得分:0)
单词嵌入是一种表示单词的方法,以使具有相同/相似含义的单词具有相似的表示形式。学习单词嵌入的两种常用算法是Word2Vec和GloVe。
请注意,在针对特定的NLP问题训练神经网络进行文本处理时,也可以从头开始学习单词嵌入。您还可以使用转移学习;在这种情况下,这意味着要从问题的庞大数据集中转移所学单词的表示形式。
关于分词器(假设我们正在谈论的是Keras),取自文档:
1)tokenize.fit_on_text()->>根据词频创建词汇索引。例如,如果您有短语“我的狗与您的狗不同,我的狗更漂亮”,则word_index [“ dog”] = 0,word_index [“ is”] = 1(狗出现3次,出现2次)
2)tokenize.text_to_sequence()->>将每个文本转换为整数序列。基本上,如果您有一个句子,它将为您句子中的每个单词分配一个整数。您可以访问tokenizer.word_index()(返回字典)以验证为单词分配的整数。