从字符向量创建自定义词典

时间:2019-03-18 09:24:26

标签: r text-mining quanteda

我正在尝试使用dfm_lookup()查找语料库中的特定单词。

我真的在为dfm_loopup()所需的字典苦苦挣扎。

我创建了一个名为“ words”的字符向量,其中包含应该输入字典的所有单词。

字典需要一个列表,因此在使用dictionary()之前,我先从字符向量创建了一个列表。

dict <- dictionary(list(words))

但是我明白了

Error in validate_dictionary(object) : 


 Dictionary elements must be named: digital digital-tv digitalis ...

为了获得dictionary()的正确输出,我必须在list命令中进行哪些更改?

是否存在用于查找dfm中特定单词的简化版本?因为使用tm()软件包真的很容易。

1 个答案:

答案 0 :(得分:0)

我相信您需要命名列表中的项目才能将字典与quanteda一起使用。这是一个示例:

library(quanteda)

words = c("cat","dog","bird")

word.list = as.list(words)
names(word.list) = words

dictionary(word.list)
Dictionary object with 3 key entries.
- [cat]:
  - cat
- [dog]:
  - dog
- [bird]:
  - bird