是否有可用的情绪论坛无监督训练数据集?

时间:2018-10-17 07:41:47

标签: sentiment-analysis unsupervised-learning

我最近完成了机器学习课程,并想制作一个论坛情绪分析工具,并将其应用到与股票相关的论坛中。

想法是:

  1. 使用评论捕获(文本挖掘)用户,并评估他们的评论情绪(正面,负面,中立)。
  2. 捕获这些评论后发生的事情(股市),并为用户分配一个权重(如果用户的情绪是随波逐流且市场遵循相同方向,则权重更大)
  3. 使用评论作为预测市场方向的工具。

实际上,我是自己做的(在论坛上关注),加上我自己的技术分析和强制性的尽职调查,它对我来说一直很好。我只是想尝试使其自动化一点,甚至可能允许一个程序使用我的一些帐户进行交易(首先进行纸面交易,如果执行得当,可以在真实帐户中分配一些钱)

这将是我的第一个机器学习项目(仅作为概念证明),因此,任何意见都将受到感激。

我发现的最大问题是我想进行无监督训练,并且我需要一个样本数据集来进行训练。

问题:是否有任何已知的论坛情感数据集可用于无监督训练?

我发现了几个情感数据集(推特,imbd,亚马逊评论),但它们非常适合自己的细分市场(短信,电影,产品...),但我正在寻找更通用的东西。

1 个答案:

答案 0 :(得分:2)

由于您正在寻找一种不受监督的方法,因此可以使用与“实际情况”相匹配的任何数据集。文本挖掘和情感分析通常是针对眼前的问题量身定制的,因此很容易直接从真实数据开始。最好的方法是构建一个抓取器,直接抓取您要分析的论坛帖子。您可以使用Python(beautifulsoup / selenium)轻松构建刮板。在线上充满了不错的教程,例如:https://www.dataquest.io/blog/web-scraping-tutorial-python/