将标记转换为语料库

时间:2018-01-28 14:18:14

标签: r

我有一个变量名称df,它是一个字符向量。

作为预处理步骤,我想删除停用词和我自己的停用词列表。之后我想创建一个上一个例子的语料库和一个dfm。

我使用以下命令行:

ffmpeg -i input.avi -b:v 1024k -bufsize 1024k output.mp4

但是在语料库中我收到了这个错误:

library(quanteda)
datastopwords_removed <- tokens_remove(tokens(df2, remove_punct = TRUE), c(stopwords("english"), mystopwords$phrases))
mycorpus <- corpus(datastopwords_remove)
myDfm <- dfm(datastopwords_remove, ngrams = c(1,5))

我该如何解决?此外,如果我在mystopword列表短语中有多个令牌,我应该进行任何特殊处理,因为它有效并且我没有收到错误,所以我想它会删除它们。

0 个答案:

没有答案