我是机器学习的新手,前段时间我在教程上看过这个方法,但我再也找不到了。我敢肯定它不是一堆文字或一个热门编码或n-gramm tho。
方法示例:
This is an example sentence
我的词汇将如下所示:
This 0
is 1
an 2
example 3
sentence 4
所以标记化的句子将是0 1 2 3 4
它叫什么?
编辑:错字
答案 0 :(得分:1)
这只是将单个单词(唯一标记)视为分类要素。分类变量只能从有限集中赋值,在您的情况下,是非负整数的集合,直到单词数。然后将句子表示为映射到其值赋值的标记序列。这通常只是单热编码的先驱。