我正在尝试对reddit上的头条新闻进行情绪分析。标题保存在一个如下所示的txt文件中(总共有1000个标题):
停车许可证被破坏
昨天的城堡和教堂
今晚在哪里显示葡萄牙与乌克兰的比赛?
我正在使用SIA,并将这样的结果保存在一个csv文件中(列的标题:标题,化合物,标签):
今晚有人在显示葡萄牙与乌克兰的比赛吗?,0.0,0
#Sentiment Analysis
sia = SIA()
results = []
headlines_file = open('headlines_only.txt', encoding='utf-8')
for line in headlines_file:
pol_score = sia.polarity_scores(line)
pol_score ['headline'] = line
results.append(pol_score)
#pprint(results, width=100)
#Save data in csv
df = pd.DataFrame.from_records(results)
df.head()
df = df[['headline', 'compound']]
#Added column "Label", negative Title -1 / positive 1 / neutral 0
df['label'] = 0
df.loc[df['compound'] > 0.2, 'label'] = 1
df.loc[df['compound'] < -0.2, 'label'] = -1
df.to_csv('reddit_headlines.csv', mode='w', encoding='utf-8', index=False)
我在生成的csv文件中得到的只是标题。没有化合物和标签。但是我的其余代码工作正常,因此化合物和标签必须位于某处,它们只是没有显示在csv文件中。
感谢帮助!