创建推文匹配表到预先确定的单词列表

时间:2016-06-10 20:19:02

标签: r

我对R来说比较新 - 目前正在使用Studio v.0.99.879 - 而我最常使用的是情感分析。但是前几天我有一个客户询问是否可能与情绪分析一起输出.csv表,其中前5个单词作为列标题,推文文本作为行,如果其中一个标题单词之间存在匹配( s)和推文文本设置/得分为1,否则为0.如果您熟悉使用get_nrc_sentiment然后使用推文文本cbind'ing情绪输出这将是有意义的。这可能是一个功能。

如果这是可行的,我将不胜感激任何指导。

输出示例......

                               hot nice day test concert
   love the hot dogs            1   0    0   0     0
   hate summer school           0   0    0   0     0
   have a nice day              0   1    1   0     0
   enjoyed last nights concert  0   0    0   0     1
   where is waldo               0   0    0   0     0

1 个答案:

答案 0 :(得分:0)

您拥有的是文档功能矩阵。

假设您的推文存储为名为tweets的字符向量。我建议使用包quanteda

df_matrix <- dfm(tweets, tolower = TRUE, stem = FALSE, remove_numbers = TRUE,
                 remove_punct = TRUE, remove_symbols = TRUE)

这将形成一个矩阵,其中每一行都是一条推文,每列都是一个单词。

然后对矩阵进行排序,以便最常见的单词出现:

df_matrix <- dfm_sort(df_matrix, decreasing = TRUE,
                      margin = "features")

你可以简单地选择这个新矩阵的前5列,然后你就去了!