我正在根据句子向量创建ngram标记。其中一些句子的字符串中包含数字。我想查找每个句子的三字母组,其中在查找ngram时数字会被忽略但不会从中删除。
例如,如果我有一个字符串:“这是一个示例2019字符串”,而我想从中查找三字母组,我想找回:
“这是一个”,“是一个示例”,“一个示例2019字符串”。
library(tidyverse)
library(quanteda)
test_sentence <- "this is an example 2019 string"
ngrams <- test_sentence %>% tokens(., ngrams = 3, what = "fasterword", remove_numbers = FALSE, concatenator = " ")
tokens from 1 document.
text1 :
[1] "this is an" "is an example" "an example 2019" "example 2019 string"
有人知道如何忽略Trigram中的数字吗?
谢谢