在PySpark中使用词典进行情感分析

时间:2019-08-11 19:46:48

标签: python pyspark bigdata pyspark-sql sentiment-analysis

一开始我想说我是编程新手。我花了很多时间来转换我的数据集,但后来我坚持了下来。目的是对PySpark的2011-2019年期间的情绪进行分析。

我想做的是检查Body列中的语句是否是正面还是负面情绪。该数据存储在一个数据帧中。为了进行正确的情绪分析,我将使用 Loughran-McDonald情感词列表-因为Body中的文本将包含一些(或许多)财务术语。具有单词和指定情感的字典存储在第二个数据帧中。每个数据帧(一个带有列:“ Body”,第二个带有LM字典)包含数千行(每行约80个)。

要进行情感分析,我必须使用第二个数据帧中的单词逐列Body遍历第一个数据帧中的每一行->查找存储在该列中的句子中是否存在特定单词'身体'。考虑到一个句子中可能同时有否定词和肯定词,我们假设一个“否定”词等于-1,而一个肯定词等于+1。最终结果(n(-1)/(+1)p个字的总和)将存储在第一个数据帧的新列中。

例如-如果Body中的特定行包含单词abandon,并标记了negative(在第二个df中,数字不等于0(在这种情况下为2009)表示将该词分配给情感的特定列-在这种情况下:否定),新列中的结果应为-1。希望我以一种可以理解的方式描述我的问题。

尽管花了几天时间在SO上寻找解决方案,但我没有找到与我的问题相匹配的答案:(我将不胜感激。

当前第一个数据帧:

+---+--------------------+--------------------+----+-----+--------+---------+--------+
| Id|        CreationDate|                Body|Year|Month|Day_of_Y|Week_of_Y|Year_adj|
+---+--------------------+--------------------+----+-----+--------+---------+--------+
|  1|2011-08-30 21:12:...|What open source ...|2011|    8|     242|       35|    2011|
|  2|2011-08-30 21:14:...|GPU mining is the...|2011|    8|     242|       35|    2011|
|  8|2011-08-30 21:18:...|I would like to d...|2011|    8|     242|       35|    2011|
|  9|2011-08-30 21:18:...|I didn't get it. ...|2011|    8|     242|       35|    2011|
| 10|2011-08-30 21:19:...|Poclbm: An open s...|2011|    8|     242|       35|    2011|
+---+--------------------+--------------------+----+-----+--------+---------+--------+

第二个数据帧(Loughran-McDonald字典):

+---------+--------+--------+-----------+---------+------------+-----------+-----------+-----+
|     Word|Negative|Positive|Uncertainty|Litigious|Constraining|Superfluous|Interesting|Modal|
+---------+--------+--------+-----------+---------+------------+-----------+-----------+-----+
| aardvark|       0|       0|          0|        0|           0|          0|          0|    0|
| abalones|       0|       0|          0|        0|           0|          0|          0|    0|
|  abandon|    2009|       0|          0|        0|           0|          0|          0|    0|
+---------+--------+--------+-----------+---------+------------+-----------+-----------+-----+

1 个答案:

答案 0 :(得分:0)

一种方法(不确定它是否性能最高)是从您的情感字典创建一个实际的python字典,并将其应用到用户定义的函数(UDF)中。鉴于您的情感词典大约有8万行,这应该是可行的。另外,通过先删除中性词,您可以进一步加快速度。
代码大纲如下:

from pyspark.sql import functions as f
# filter neutral words
filtered_sentiment_df = sentiment_df.filter((f.col("negative") > 0) | (f.col("positive") > 0))
# the following assumes that there are no words both positive and negative
sentiments = filtered_sentiment_df.select(f.col("word"), f.when(f.col("negative") > 0, -1).otherwise(1).alias("sentiment"))

# now we got the dict and can apply it via a UDF
sentiment_dict = {row["word"]: row["sentiment"] for row in sentiments.collect()}

def calculate_sentiment_score(sentence, sentiment_dict):
    return sum([sentiment_dict.get(w, 0) for w in sentence.split(" ")])

sentiment_udf = f.udf(lambda x: calculate_sentiment_score(x, sentiment_dict))
bodies_df = bodies_df.withColumn("total_sentiment", sentiment_udf(f.col("body")))
bodies_df.show()