我被要求编写一个算法来检测讽刺,但我在逻辑中遇到了一个缺陷(或似乎是一个缺陷)。
例如,如果有人说
答:我喜欢Justin Beiber。你喜欢他吗?B:是的。当然。 我非常爱他。
现在这可能被认为是讽刺与否,唯一可以知道的方法就是知道B是否严重。
(我不应该深入。我们被给了一堆短语,只是被告知如果这些是在句子中那么它是讽刺但我感兴趣?)
有什么方法可以解决这个问题吗?或者在讽刺时计算机是否完全停滞不前?
(我想它取决于发言者的语气,但我的输入是文字)
答案 0 :(得分:17)
看起来有些研究尝试过,但他们还没有提出一个运行良好的算法。
来自González-Ibáñez, R. et al. "Identifying sarcasm in Twitter: a closer look"
讽刺和讽刺是语言学中充分研究的现象, 心理学和认知科学[...]。但在文本挖掘中 文献中,讽刺的自动检测被认为是困难的 问题[...]和 仅在少数研究中得到了解决。 [...]与我们最密切相关的工作是Davidov等人的工作。 (2010),其目的是识别讽刺和非讽刺 Twitter和亚马逊产品评论中的话语。在本文中,我们 考虑将讽刺性推文与非讽刺性推文区分开来的难度较大的问题
他们总结道:
也许不出所料,无论是人类评委还是机器人 学习技巧表现很好。 [...]我们的研究结果表明单独的词汇特征不足以识别讽刺,而语用和语境特征值得进一步研究
这是另一篇近期的相关论文:
Reyes, A. "From humor recognition to irony detection: The figurative language of social media"
答案 1 :(得分:9)
...句子由用户编写。它是两个人之间的模拟对话。
用一个短语来检测讽刺几乎是不可能的,但是在上下文中它可能会更加可行。让我们假设你可以解析句子并解释它的字面意义(不是一个简单的任务,但这个问题至少在某种程度上得到了解决)。
您现在有来自:
的背景信息要利用#1,您可以互相引用所有短语。他们中的任何一个都是直接矛盾吗?
示例:
演讲者1 :我爱Justin Bieber。你呢?
演讲者2 :完全!我爱他。
演讲者1 :你最喜欢他的是什么?
演讲者2 :他那令人敬畏的音乐!
演讲者1 :真的吗?你最喜欢的歌是什么?
演讲者2 :来吧,你知道我讨厌他的音乐。
我们知道有两个矛盾的短语,“我爱他!”和“我讨厌他的音乐”。至少有机会发生讽刺。
方法#2可能更有效(或无用......也许讽刺已知,但两方之间没有说出口。)
示例:
演讲者1 :Justin Bieber在镇上。我很想见到他。
演讲者2 :哈。
另一个例子:
演讲者1 :我爱Justin Bieber。你呢? 演讲者2 :我床上方有一张巨幅海报 演讲者1 :是的。
更加详细,您可以应用启发式方法来确定对话在特定短语之后的偏差程度。
演讲者1 :我非常喜欢Justin Bieber!你呢?
发言者1发表了强调声明
演讲者2 :是的,当然
<子>讽刺。我们不知道,但对话中的其他人确实如此。
演讲者1现在采取什么方向?他们改变了主题吗?根据对话转变的程度,它可能表明他们对感知反应的反应。
所有这一切都说,大部分需要复杂的处理,我希望最好的准确率非常低。但这是一个引人入胜的问题。
答案 2 :(得分:4)
讽刺真的是关于它所说的语气,文字不能保持声调,声明是真实的可行性还可以判断它的讽刺......
如果用户输入了输入,则有两种方法可以执行此操作。
一个基于他们使用互联网术语撰写的内容。
例如:
用户可以输入:
"Yeah. Sure. I absolutely love him. /sarcasm"
您可以查看/sarcasm
[/sarcasm]
等
或者你可以使用统计赔率:
"Yeah, and I'm the president of USA"
....事实上正确的统计几率非常低,可以被标记为讽刺。
答案 3 :(得分:1)
那么从文化或语言的角度来看,究竟是什么讽刺呢?如果您想解决这个复杂的问题,您必须澄清这一点。问题非常复杂,因为要求在某些人类语言中使用AI。你可以看一下A.L.I.C.E.的灵感。