将缩写词提取到其原始单词的算法

时间:2014-12-19 03:24:08

标签: algorithm nlp text-analysis

我正在构建一个程序来进行一些文本分析。

我猜测将缩写词解压缩到原始单词会提高分析的准确性。 但我不知道要实现它。我谷歌搜索了一下,但找不到任何文章或论文讨论这个。 (或者我可能只是不知道正确的搜索关键字)

基本上我需要的是:给定一个单词W,从词典中找到一个概率最高的词是W的未缩写版本(未缩写词的列表)。或者,我希望算法与印尼语言兼容。

我的问题有点类似于这个问题:A string searching algorithm to quickly match an abbreviation in a large list of unabbreviated strings?,但这个问题没有得到解答,尽管在2010年被问到。

那么,任何想法?提前谢谢!

2 个答案:

答案 0 :(得分:2)

在不了解印度尼西亚语的情况下,我的第一步是获取常用缩写列表,并简单地进行字典查找。

viz. => namely
i.e. => that is
fr.  => from
Fr.  => France, French
abbr. => abbreviated, abbreviation

如何决定选择哪种扩展是一种自己的蠕虫。我能快速提出的例子很好,因为它们是不同的词性,所以选择形容词适合句子的形容词;但是在一般情况下,你只需要处理一些事实,即某些缩写词真的含糊不清,就像有歧义词一样。毕竟,也许根本不会扩展这些。

对于字典中没有的缩写,我只需在单词列表中查找它们,可能包含频率和/或词性信息,这样您就可以选择最有可能/最受欢迎的字词。有几个前缀匹配。如果没有这些信息,我会使用粗略的启发式方法来选择最短的匹配。

答案 1 :(得分:0)

上下文是缩写的一切。您的“最高概率”匹配几乎肯定会转到缩写的上下文与扩展的(预期)上下文匹配的匹配。

当然,问题在于有很多可能的背景,如某些缩写所示,有几十种可能的扩展。尝试定义缩写的上下文也很困难。

你可能能够将其限制为仅限10-20个不同的上下文,然后进行相当粗略的匹配。我很确定它会有很高的错误率。它还需要大量工作来手动添加/验证上下文。