检测推文中的危险

时间:2014-11-15 22:22:26

标签: machine-learning nlp sentiment-analysis

寻找关于决定推文(字符串,真的)是否传达危险情绪的主题的API,方法,研究等。

例如:

  • 危险:"街对面的房子着火了!

  • 没有危险:"这个女孩着火了!喜欢这首歌"

1 个答案:

答案 0 :(得分:2)

关于检测危险的特定问题的研究很少,但是有一些研究论文描述了检测自然灾害的方法。你的例子让人联想到其中一个的标题:Finding Fires with Twitter。您可能觉得有用的另一项研究是Emergency Situation Awareness: Twitter Case Studies

然而,一般而言,解决此类问题的最佳方法是通过监督分类,非常类似于情感分析(或者更确切地说,因为有更复杂的机器学习范例,如Deep Learning如今)完成了。

本质上是将文档(在您的情况下,推文)标记为“危险”和“非危险”。这种标签由人类专家完成。理想情况下,他们应该精通语言和领域。因此,使用知道Twitter俗语的母语为英语的人将是完成此任务的完美注释者。

一旦标记了足够数量的文档,通常通过创建n-gram单词向量作为特征向量并运行SVM来实现基线(即基本方法)。如果您不了解机器学习细节,请在此之前阅读它们。