我对R来说比较新 - 目前正在使用Studio v.0.99.879 - 而我最常使用的是情感分析。但是前几天我有一个客户询问是否可能与情绪分析一起输出.csv表,其中前5个单词作为列标题,推文文本作为行,如果其中一个标题单词之间存在匹配( s)和推文文本设置/得分为1,否则为0.如果您熟悉使用get_nrc_sentiment然后使用推文文本cbind'ing情绪输出这将是有意义的。这可能是一个功能。
如果这是可行的,我将不胜感激任何指导。
输出示例......
hot nice day test concert
love the hot dogs 1 0 0 0 0
hate summer school 0 0 0 0 0
have a nice day 0 1 1 0 0
enjoyed last nights concert 0 0 0 0 1
where is waldo 0 0 0 0 0
答案 0 :(得分:0)
您拥有的是文档功能矩阵。
假设您的推文存储为名为tweets
的字符向量。我建议使用包quanteda
。
df_matrix <- dfm(tweets, tolower = TRUE, stem = FALSE, remove_numbers = TRUE,
remove_punct = TRUE, remove_symbols = TRUE)
这将形成一个矩阵,其中每一行都是一条推文,每列都是一个单词。
然后对矩阵进行排序,以便最常见的单词出现:
df_matrix <- dfm_sort(df_matrix, decreasing = TRUE,
margin = "features")
你可以简单地选择这个新矩阵的前5列,然后你就去了!