应用错误收集

我有一个变量名称df，它是一个字符向量。

作为预处理步骤，我想删除停用词和我自己的停用词列表。之后我想创建一个上一个例子的语料库和一个dfm。

我使用以下命令行：

ffmpeg -i input.avi -b:v 1024k -bufsize 1024k output.mp4

但是在语料库中我收到了这个错误：

library(quanteda)
datastopwords_removed <- tokens_remove(tokens(df2, remove_punct = TRUE), c(stopwords("english"), mystopwords$phrases))
mycorpus <- corpus(datastopwords_remove)
myDfm <- dfm(datastopwords_remove, ngrams = c(1,5))

我该如何解决？此外，如果我在mystopword列表短语中有多个令牌，我应该进行任何特殊处理，因为它有效并且我没有收到错误，所以我想它会删除它们。

将标记转换为语料库

0 个答案: