我想构建一个可以输入任何Twitter关键字的应用程序,后端将抓取相关的推文,并以负面,中性和正面推文的百分比返回对推文的情感分析。例如,我输入关键字“百事可乐”,应用程序将输出如下内容:与百事可乐相关的推文包含10%的负面情绪,10%的中立情绪和80%的正面评价。
所以问题是如何训练我可以在后端使用的机器学习算法来对各种主题进行这种情感分析。这里涉及的主要思想是转移学习,我们在大量学习的标签数据上训练一个模型,并以此为基线来训练其他数据。迁移学习在NLP中具有局限性,主要是因为在一项任务中学习到的知识不够广泛,无法延伸到其他任务的下游。例如,我预训练了一个好的神经网络,对航空公司进行情感分析,其预测准确率超过70%。但是,当我使用同一模型对百事可乐进行情感分析时,我只能获得大约30%的预测准确性。
我做了一些研究,发现Google的通用句子嵌入非常流行。但是,我意识到这是将输入文本转换为特征向量的新方法,而不是通用算法。我想知道有人能指出我应该去的方向吗?提前非常感谢!