我最近完成了机器学习课程,并想制作一个论坛情绪分析工具,并将其应用到与股票相关的论坛中。
想法是:
实际上,我是自己做的(在论坛上关注),加上我自己的技术分析和强制性的尽职调查,它对我来说一直很好。我只是想尝试使其自动化一点,甚至可能允许一个程序使用我的一些帐户进行交易(首先进行纸面交易,如果执行得当,可以在真实帐户中分配一些钱)
这将是我的第一个机器学习项目(仅作为概念证明),因此,任何意见都将受到感激。
我发现的最大问题是我想进行无监督训练,并且我需要一个样本数据集来进行训练。
问题:是否有任何已知的论坛情感数据集可用于无监督训练?
我发现了几个情感数据集(推特,imbd,亚马逊评论),但它们非常适合自己的细分市场(短信,电影,产品...),但我正在寻找更通用的东西。
答案 0 :(得分:2)
由于您正在寻找一种不受监督的方法,因此可以使用与“实际情况”相匹配的任何数据集。文本挖掘和情感分析通常是针对眼前的问题量身定制的,因此很容易直接从真实数据开始。最好的方法是构建一个抓取器,直接抓取您要分析的论坛帖子。您可以使用Python(beautifulsoup / selenium)轻松构建刮板。在线上充满了不错的教程,例如:https://www.dataquest.io/blog/web-scraping-tutorial-python/