实际上,我对令牌不是很了解。 当我阅读googleresearch / bert模型时,我看到了这些词。
$ ./myscript.awk file
G22822 184578924
G22822 158203981
任何人都可以举例说明令牌级和段级分类吗?
答案 0 :(得分:0)
段级别分类意味着每个段将具有一个标签,例如,一个分类器,将电影评论分为好或坏。整个输入序列只有一个输出标签。
令牌级别分类意味着向每个令牌赋予标签,例如词性标记器会将每个单词归类为语音的一个特定部分。每个令牌(序列中的元素)在输出中都会有一个对应的标签。
如果不确定令牌是什么,可以先将其视为句子中的每个单词,但要更正确一点,请查看https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html。根据您对文本进行标记和预处理的方式,标记可以是单词,标点符号,特殊标记,子单词级别的符号等。