有哪些技巧可以区分简单的常用短语,例如“to the”,“and the”和设定的短语和习语,它们有自己的词汇意义,如“拾取”,“坠入爱河”, “红鲱鱼”,“死胡同”?
即使没有字典也有成功的技术,例如HMM在大型语料库上训练的统计方法?
或者是否存在启发式方法,例如忽略或加权“混杂”词语,这些词语可能与任何单词或单独或在特定有限的惯用短语中出现的单词共同出现?
如果有这样的启发式方法,我们如何考虑设置短语和口头短语,这些短语和口头短语中包含混杂的词语,如“殴打”中的“up”,“up up”,“sit up”,“think up” ?
更新
我在网上发现了一篇有趣的论文:Unsupervised Type and Token Identification of Idiomatic Expressions