这个文本标记化方法的学名是什么?

时间:2018-04-24 16:36:48

标签: machine-learning deep-learning tokenize

我是机器学习的新手,前段时间我在教程上看过这个方法,但我再也找不到了。我敢肯定它不是一堆文字或一个热门编码或n-gramm tho。

方法示例:

This is an example sentence

我的词汇将如下所示:

This 0
is 1
an 2
example 3
sentence 4

所以标记化的句子将是0 1 2 3 4

它叫什么?

编辑:错字

1 个答案:

答案 0 :(得分:1)

这只是将单个单词(唯一标记)视为分类要素。分类变量只能从有限集中赋值,在您的情况下,是非负整数的集合,直到单词数。然后将句子表示为映射到其值赋值的标记序列。这通常只是单热编码的先驱。