我正在做一个关于社交媒体俚语标识符的项目。我必须从不同的评论中找出缩写。但问题是,在一个特定的评论中假设它写的GM(意思是早安)和同一个其他一些评论的时间再次写入GM(指总经理)。
所以我需要区分这两者,尽管它在两种情况下都是相同的(即GM)。 我在这个问题上真的很困惑。我对此并不知情。
任何人都可以帮助我克服这个问题吗?
答案 0 :(得分:2)
这是一个难题。你需要一些语义算法才能做出这种区分 您无法仅从语法或仅从文本表示中推断出含义。
谷歌“消除歧义自然语言处理”。你会看到很多资源 这只是为了给你一个提示。如上所述,问题广泛而复杂。
答案 1 :(得分:0)
这听起来像一个非常复杂的问题。
根据我对它的理解,你需要一个非常大的这些缩写词典,以及使用它们的lexical field
(a.k.a。semantic field)。
为了检测lexical field
您还可以将发言者分组为“与工作相关”或“来自大学的同事”或“喝酒伙伴”,并且可能对这些群体有一个标准,以便来自其他人的数据用户也被使用。为了理解这一点,也许你可以理解一种俚语的同义词,即argot。
因此,举例来说,如果有人说“通用汽车的反馈实际上非常好”,你不仅明白它是一个普通名词,而且反馈也来自“商业”lexical field
。
实际的时间范围和您使用的数据会很有用,我会相应地编辑这个答案。