Question

我对R来说比较新 - 目前正在使用Studio v.0.99.879 - 而我最常使用的是情感分析。但是前几天我有一个客户询问是否可能与情绪分析一起输出.csv表，其中前5个单词作为列标题，推文文本作为行，如果其中一个标题单词之间存在匹配（ s）和推文文本设置/得分为1，否则为0.如果您熟悉使用get_nrc_sentiment然后使用推文文本cbind'ing情绪输出这将是有意义的。这可能是一个功能。

如果这是可行的，我将不胜感激任何指导。

输出示例......

                               hot nice day test concert
   love the hot dogs            1   0    0   0     0
   hate summer school           0   0    0   0     0
   have a nice day              0   1    1   0     0
   enjoyed last nights concert  0   0    0   0     1
   where is waldo               0   0    0   0     0

Answer 1

您拥有的是文档功能矩阵。

假设您的推文存储为名为tweets的字符向量。我建议使用包quanteda。

df_matrix <- dfm(tweets, tolower = TRUE, stem = FALSE, remove_numbers = TRUE,
                 remove_punct = TRUE, remove_symbols = TRUE)

这将形成一个矩阵，其中每一行都是一条推文，每列都是一个单词。

然后对矩阵进行排序，以便最常见的单词出现：

df_matrix <- dfm_sort(df_matrix, decreasing = TRUE,
                      margin = "features")

你可以简单地选择这个新矩阵的前5列，然后你就去了！

创建推文匹配表到预先确定的单词列表

1 个答案: