我有一个变量名称df,它是一个字符向量。
作为预处理步骤,我想删除停用词和我自己的停用词列表。之后我想创建一个上一个例子的语料库和一个dfm。
我使用以下命令行:
ffmpeg -i input.avi -b:v 1024k -bufsize 1024k output.mp4
但是在语料库中我收到了这个错误:
library(quanteda)
datastopwords_removed <- tokens_remove(tokens(df2, remove_punct = TRUE), c(stopwords("english"), mystopwords$phrases))
mycorpus <- corpus(datastopwords_remove)
myDfm <- dfm(datastopwords_remove, ngrams = c(1,5))
我该如何解决?此外,如果我在mystopword列表短语中有多个令牌,我应该进行任何特殊处理,因为它有效并且我没有收到错误,所以我想它会删除它们。