keras令牌生成器是否提供诸如词干提取和lemmetization的功能?如果可以,那么如何完成?需要一个直观的理解。另外,text_to_sequence在此做什么?
答案 0 :(得分:0)
令牌化器分别是什么功能,令牌化可能会引起一些混淆。标记化将字符串拆分为较小的实体,例如单词或单个字符。因此,这些也称为令牌。 Wikipedia提供了一个很好的示例:
The quick brown fox jumps over the lazy dog
变为:
<sentence>
<word>The</word>
<word>quick</word>
...
<word>dog</word>
</sentence>
合法化(将单词的变体形式分组在一起-> link)或词干(将变体(或有时派生)的单词简化为词干的过程-> link)是您在预处理期间执行的操作。标记化可以是去词性化和词干化之前(或两者之后)的预处理过程的一部分。
无论如何,Keras并不是用于完全提取文本预处理的框架。因此,您可以将已经清理过的,经过定形处理的数据输入Keras。 关于您的第一个问题:不,Keras不提供诸如词原化或词根提取之类的功能。
Keras在诸如here in the docs之类的文本预处理下理解的是准备数据以将其馈送到Keras模型(例如顺序模型)的功能。例如,这就是Keras-Tokenizer这样做的原因:
此类可以通过旋转每个文本来向量化文本语料库 分为两个整数序列(每个整数是a的索引) 字典中的令牌)或向量中每个向量的系数 令牌可以是基于单词数,基于tf-idf的二进制...
例如,通过向量化输入字符串并将其转换为数字数据,您可以将它们作为输入提供给神经网络(对于Keras)。
text_to_sequence
的含义可以从中提取: [...]整数序列(每个整数是字典中标记的索引)[...] 。
这意味着您之前的字符串之后可以是数字整数的序列(例如数组),而不是实际的单词。
关于这一点,您还应该了解什么是Keras顺序模型(例如here),因为它们采用了序列作为输入。
此外,text_to_word_sequence()
(docs)也提供了这样的标记化,但是不会将数据向量化为数字向量,并返回标记化字符串的数组。
将文本转换为单词(或标记)序列。