在自然语言处理的哪个研究领域,缩写检测来了吗?寻找学习缩写检测的来源。我考虑过Semantics,它基本上检测同义词。所以我想我可能会做多字词语义来检测“nlp”和“自然语言处理”是相似的。但我找不到做多字词语的解决方案。
注意:我知道这个问题很容易投票,但试着理解我的问题。我已经挣扎了几个月了,任何帮助都非常感激......
三江源
答案 0 :(得分:7)
(自动)缩写的检测也是一般的主要子问题和句子分割和标记化过程的任务,即:从缩写附加的标点符号中消除句子结尾的歧义。 已经应用统计方法(NLP)来成功地检测和提取它们,主要是以(半)监督的方式。例如。 PUNKT系统实际上是为句子边界检测而开发的,能够检测出高精度的缩写,,这是基于这样的假设,即确定句子边界时可能存在大量歧义一旦确定了缩写就被删除(Kiss et al. 2006. Unsupervised Multilingual Sentence Boundary Detection)。
现在,在尝试修改PUNKT系统或类似系统之前,我只想尝试给出方向。基于NLP的abbr。检测。例如,上述系统应用技术来测量令牌对之间的搭配强度,其可以是两个单词,但也可以是单词和一些标点符号,被视为令牌。这一切都基于频率和概率,尽管传统搭配分析的结果确实允许进行语义研究。
答案 1 :(得分:4)
谢谢所有帮助过我的人,我想我自己找到了答案。我相信它,因为它来自发明雅虎缩写扩展算法的人的研究论文。它也显示出人工智能的迹象。再次,谢谢所有人。
对于和我在同一条船上的其他人,这是解决方案:
SEO by the sea - How search engines might expand abbreviations in search queries
答案 2 :(得分:0)
您可以从简单的基于规则的解决方案开始,例如:寻找像“自然语言处理(NLP)”这样的模式。我希望给定一个足够大的语料库,这可能会有很长的路要走。如果你包括维基百科的转储...