keras-tokenizer是否执行去词粒化和词根提取任务?

时间:2019-06-12 07:33:03

标签: keras nlp tokenize stemming lemmatization

keras令牌生成器是否提供诸如词干提取和lemmetization的功能?如果可以,那么如何完成?需要一个直观的理解。另外,text_to_sequence在此做什么?

1 个答案:

答案 0 :(得分:0)

令牌化器分别是什么功能,令牌化可能会引起一些混淆。标记化将字符串拆分为较小的实体,例如单词或单个字符。因此,这些也称为令牌Wikipedia提供了一个很好的示例:

The quick brown fox jumps over the lazy dog变为:

<sentence>
  <word>The</word>
  <word>quick</word>
  ...
  <word>dog</word>
</sentence>

合法化(将单词的变体形式分组在一起-> link)或词干(将变体(或有时派生)的单词简化为词干的过程-> link)是您在预处理期间执行的操作。标记化可以是去词性化和词干化之前(或两者之后)的预处理过程的一部分。

无论如何,Keras并不是用于完全提取文本预处理的框架。因此,您可以将已经清理过的,经过定形处理的数据输入Keras。 关于您的第一个问题:不,Keras不提供诸如词原化或词根提取之类的功能。

Keras在诸如here in the docs之类的文本预处理下理解的是准备数据以将其馈送到Keras模型(例如顺序模型)的功能。例如,这就是Keras-Tokenizer这样做的原因:

  

此类可以通过旋转每个文本来向量化文本语料库   分为两个整数序列(每个整数是a的索引)   字典中的令牌)或向量中每个向量的系数   令牌可以是基于单词数,基于tf-idf的二进制...

例如,通过向量化输入字符串并将其转换为数字数据,您可以将它们作为输入提供给神经网络(对于Keras)。

text_to_sequence的含义可以从中提取: [...]整数序列(每个整数是字典中标记的索引)[...] 。 这意味着您之前的字符串之后可以是数字整数的序列(例如数组),而不是实际的单词。

关于这一点,您还应该了解什么是Keras顺序模型(例如here),因为它们采用了序列作为输入。

此外,text_to_word_sequence()docs)也提供了这样的标记化,但是不会将数据向量化为数字向量,并返回标记化字符串的数组。

  

将文本转换为单词(或标记)序列。