如何将情绪词典导入R中以进行Kickstarter的数据抓取

时间:2016-03-16 12:47:57

标签: r screen-scraping mining emotion lexicon

我正在尝试使用R来创建一个用于测量文本中的情感的模型。基本上,使用带有情感词的词典,我只想提取' p'来自大量网址的(段落)。 我希望通过使用词典基于预定义的情感指示单词的存在来找到每个URL的每个情感的单词计数。 Lexicon link

我使用的数据是JSON格式,来自Webrobots:Dataset Link(最新一组)。

任何帮助都会非常感激,因为我真的很想开始这个! 即使只是知道我如何将其导入R和一个代码来计算单词将是非常有帮助的。

亲切的问候, 一个绝望的R-illiterate女孩。

更新: 数据文件被导入到R.但是,我找不到一种方法来编写一个代码来测试是否存在针对数据运行的词典指示的单词。我试图创建6个新的变量,其中包含六种基本情绪(快乐,悲伤,愤怒,惊讶,恐惧,厌恶)的每个竞选计数,以显示存在这些情绪的字数

我已经在文件中指出了段落' p'仔细看看。我只需要对其内容进行分类。

1 个答案:

答案 0 :(得分:0)

词典列表下载

  1. 您的第一步是从此链接手动下载(简单的复制和粘贴)词典列表并将其保存为.csv格式:

http://www.saifmohammad.com/WebDocs/NRC-AffectIntensity-Lexicon.txt

然后,您需要将此列表分为4个单独的部分,每个部分都应该有一个影响。这将导致4个.csv文件为:

anger_list = w.csv
fear_list  = x.csv
joy_list   = y.csv
sad_list   = z.csv

如果您不想手动执行此操作,则可以使用另一个词典列表,将数据直接下载到单独的文件中:https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon

文本数据下载

  1. 您共享的另一个链接(http://webrobots.io/Kickstarter-datasets/)现在似乎同时具有JSON和csv文件,并且将其读入R似乎很简单。

清理URL以进行文本提取

  1. 我不确定您对分析感兴趣的列/字段;因为我截至2019年2月下载的数据集没有字段'p'。

由于您提到了URL的存在,所以我也分享了一个简短的代码,用于可能的URL编辑或清除。这将帮助您从URL中获取干净的文本数据:

replacePunctuation <- function(x)
{

  # Lowercase all words for convenience
  x <- tolower(x)

  # Remove words with multiple consecutive digits in them (3 in this case) 
  x <- gsub("[a-zA-Z]*([0-9]{3,})[a-zA-Z0-9]* ?", " ", x)

  # Remove extra punctuation
  x <- gsub("[.]+[ ]"," ",x) # full stop
  x <- gsub("[:]+[ ]"," ",x) # Colon
  x <- gsub("[?]"," ",x)     # Question Marks
  x <- gsub("[!]"," ",x)     # Exclamation Marks
  x <- gsub("[;]"," ",x)     # Semi colon
  x <- gsub("[,]"," ",x)     # Comma
  x <- gsub("[']"," ",x)     # Apostrophe
  x <- gsub("[-]"," ",x)     # Hyphen
  x <- gsub("[#]"," ",x)     

  # Remove all newline characters
  x <- gsub("[\r\n]", " ", x)

  # Regex pattern for removing stop words
  stop_pattern <- paste0("\\b(", paste0(stopwords("en"), collapse="|"), ")\\b")
  x <- gsub(stop_pattern, " ", x)

  # Replace whitespace longer than 1 space with a single space
  x <- gsub(" {2,}", " ", x)

  x
}

用于添加情感或情感得分的代码

  1. 接下来,我假设您已经在R中以文本形式读取了数据。假设您已将其存储为某些数据框 df $ p 的一部分。然后,下一步是向此数据框添加其他列:

    df$p # contains text of interest
    

现在为这四个影响的每一个在此数据框中添加其他列

df$ANGER   = 0
df$FEAR    = 0
df$JOY     = 0
df$SADNESS = 0

然后,您只需循环遍历 df 的每一行,即可将文本 p 分解为基于空格的单词。然后,您从词典列表中寻找出现的特定词条,然后将其删除。然后,您为每种效果分配得分,如下所示:

for (i in 1:nrow(df))
{
  # counter initialization
  angry = 0
  feared = 0
  joyful = 0
  sad = 0

# for df, let's say the text 'p' is at first column place  
words <- strsplit(df[i,1], " ")[[1]]  
  for (j in 1:length(words))
  {
    if (words[j] %in% anger_list[,1])
      angry = angry + 1
    else {
      if (words[j] %in% fear_list[,1])   
        feared = feared + 1
      else { 
        if (words[j] %in% joy_list[,1])
          joyful = joyful + 1
        else
          sad = sad + 1
      } #else 2
    } #else 1
  } #for 2

  df[i,2] <- angry
  df[i,3] <- feared
  df[i,4] <- joyful
  df[i,5] <- sad

}#for 1

请注意,在上述实现中,我假设一个单词一次只能代表一种影响。这意味着我认为这些影响是互斥的。但是,据我了解,对于文本“ p”中的某些术语,可能并非如此,因此您应该修改代码以使其合并,以使每个术语具有多种影响。