Question

keras令牌生成器是否提供诸如词干提取和lemmetization的功能？如果可以，那么如何完成？需要一个直观的理解。另外，text_to_sequence在此做什么？

Answer 1

令牌化器分别是什么功能，令牌化可能会引起一些混淆。标记化将字符串拆分为较小的实体，例如单词或单个字符。因此，这些也称为令牌。 Wikipedia提供了一个很好的示例：

The quick brown fox jumps over the lazy dog变为：

<sentence>
  <word>The</word>
  <word>quick</word>
  ...
  <word>dog</word>
</sentence>

合法化（将单词的变体形式分组在一起-> link）或词干（将变体（或有时派生）的单词简化为词干的过程-> link）是您在预处理期间执行的操作。标记化可以是去词性化和词干化之前（或两者之后）的预处理过程的一部分。

无论如何，Keras并不是用于完全提取文本预处理的框架。因此，您可以将已经清理过的，经过定形处理的数据输入Keras。 关于您的第一个问题：不，Keras不提供诸如词原化或词根提取之类的功能。

Keras在诸如here in the docs之类的文本预处理下理解的是准备数据以将其馈送到Keras模型（例如顺序模型）的功能。例如，这就是Keras-Tokenizer这样做的原因：

此类可以通过旋转每个文本来向量化文本语料库分为两个整数序列（每个整数是a的索引）字典中的令牌）或向量中每个向量的系数令牌可以是基于单词数，基于tf-idf的二进制...

例如，通过向量化输入字符串并将其转换为数字数据，您可以将它们作为输入提供给神经网络（对于Keras）。

text_to_sequence的含义可以从中提取： [...]整数序列（每个整数是字典中标记的索引）[...] 。这意味着您之前的字符串之后可以是数字整数的序列（例如数组），而不是实际的单词。

关于这一点，您还应该了解什么是Keras顺序模型（例如here），因为它们采用了序列作为输入。

此外，text_to_word_sequence()（docs）也提供了这样的标记化，但是不会将数据向量化为数字向量，并返回标记化字符串的数组。

将文本转换为单词（或标记）序列。