我正在使用tidytext
的内置anti_join(get_stopwords())
命令从技术产品的客户审查数据中清除文档,但是我发现输出语料库主要由技术规范组成(例如,Windows 10、720p摄像头,380.6 x 258.2 x 22.45(英寸),IntelCore等),并且几乎没有形容词和名词来表示客户对产品的满意程度。
是否有任何便捷的方法来编译要删除的技术术语列表(例如之前列出的那些术语)并将其手动插入get_stopwords()
或等效功能中,以更好地识别客户评论中的那些非技术形容词和名词?
答案 0 :(得分:1)
您可以创建自己的停用词的数据框。此示例使用HG Wells的小说和两个用户指定的停用词(感谢https://www.tidytextmining.com/tidytext.html)。我不知道那里有没有与技术相关的停用词的知名语料库。
hgwells <- gutenberg_download(35)
my_stop_words <- data.frame(word=c('time','machine')) # list of your stop words
hgwells %>% unnest_tokens(word,text) %>%
anti_join(my_stop_words) # removes words 'time' and 'machine'