我希望将分数(正面,负面或中性)应用于短文本短语。如果没有解析表情符号并根据其使用情况做出假设,我不确定还有什么可以尝试。任何人都可以提供例子,研究论文,文章等,对这个问题进行更多的词汇分析。
我认为副词使用,标点误用/重复,拼写/语法错误都可以作为作者心情的良好指标,几乎是二元意义上的(好的或坏的)。
答案 0 :(得分:3)
这听起来像一个非常清晰的二元分类任务,你可以将问题简化为正面或负面,然后通过概率质量设置为中性来做出最熵的决定或那些尚未达到确定性阈值的决策。
您最大的障碍是获取随机机器学习方法的训练数据。您可以使用现成的最大熵模型轻松完成此操作,例如Toolkit for Advanced Discriminative Modeling或Mallet。您描述的功能只需格式化为这些模型使用的输入。
为了获得培训数据,您可以像亚马逊的Mechanical Turk那样进行某种付费众包,也可以自己动手,也许可以在朋友的帮助下完成。你需要一个很多的数据。您可以通过主动学习,集合或增强等方法来消除数据的缺乏,从而提高模型的预测强度,但重要的是尽可能地针对实际数据进行测试,并选择最适合的数据。实际应用。
如果您正在为此寻找论文,您需要查看Google学术搜索中的“情绪分析”一词。 The Association for Computational Linguistics有许多来自会议和期刊的免费和有用的论文,从语言学和算法的角度来解决这个问题。我也会浏览他们的档案。祝你好运!
答案 1 :(得分:2)
嗯,latent semantic analysis(也有一个paper似乎就像你正在谈论的那个最接近完善的调查领域。它不那么“以价值为导向”,而是更专注于更大的文档,但仍可能与您的问题有关。
答案 2 :(得分:0)
这听起来像是一个非常有趣的想法 - 我有兴趣看看它是什么来的。
我会说标点符号是你可以使用的一个指标......
您也可以尝试使用常见的首字母缩略词,例如......
这显然是你想要做的非常复杂的事情,但听起来很有趣。