社交媒体俚语标识符

时间:2014-03-11 10:53:16

标签: java spring

我正在做一个关于社交媒体俚语标识符的项目。我必须从不同的评论中找出缩写。但问题是,在一个特定的评论中假设它写的GM(意思是早安)和同一个其他一些评论的时间再次写入GM(指总经理)。

所以我需要区分这两者,尽管它在两种情况下都是相同的(即GM)。 我在这个问题上真的很困惑。我对此并不知情。

任何人都可以帮助我克服这个问题吗?

2 个答案:

答案 0 :(得分:2)

这是一个难题。你需要一些语义算法才能做出这种区分 您无法仅从语法或仅从文本表示中推断出含义。

谷歌“消除歧义自然语言处理”。你会看到很多资源 这只是为了给你一个提示。如上所述,问题广泛而复杂。

答案 1 :(得分:0)

这听起来像一个非常复杂的问题。 根据我对它的理解,你需要一个非常大的这些缩写词典,以及使用它们的lexical field(a.k.a。semantic field)

为了检测lexical field您还可以将发言者分组为“与工作相关”或“来自大学的同事”或“喝酒伙伴”,并且可能对这些群体有一个标准,以便来自其他人的数据用户也被使用。为了理解这一点,也许你可以理解一种俚语的同义词,即argot

因此,举例来说,如果有人说“通用汽车的反馈实际上非常好”,你不仅明白它是一个普通名词,而且反馈也来自“商业”lexical field

实际的时间范围和您使用的数据会很有用,我会相应地编辑这个答案。