我正在开始一个学校项目,在这里我可以自由地进行与智能系统有关的任何事情。我想做一些Twitter情绪分析。我在网上看到许多教程,它们将python与NLTK或TextBlob之类的库一起使用,这使得在文本样本中对情感进行分类变得很容易。
对于这个项目,我想从头开始制作自己的神经网络,然后进行训练,然后可以使用twitter的firehose API中的推文进行测试。我当时正在考虑使用tflearn创建和训练网络,因为这是我所熟悉的。我不确定的事情是从哪里获得训练/验证数据集以及如何准备该数据进行处理。您会建议我做什么开始?
答案 0 :(得分:1)
如果主要目标是Twitter情绪分析,则可以使用基于词法的方法代替ML方法。 Twitter是社交媒体领域,很难找到足够的数据来训练该模型。
我发现词汇方法对于Twitter情绪分析更为方便。在可用的所有词汇方法中,VADER词典是基于推文开发的,我发现它对我的项目非常有效。
您可以阅读有关研究here的信息。
如果您选择的语言是Python,则VADER研究人员还开发了python库。您可以找到包含详细分析here的代码。
希望这会有所帮助。 干杯!
答案 1 :(得分:0)
对于数据,您可以使用来自任何站点的带有注释的数据集,而不仅仅是Twitter。我建议使用this。该数据会自动添加注释,因此您需要检查其标签以查看它们是否正确。请参阅链接以获取更多详细信息
具体来说,对于情感分析以及所有NLP问题,词嵌入起着至关重要的作用。建议您使用word2vec
中的gensim
将文本数据转换为数字空间。
祝您在项目中一切顺利:D