我正在开发一个项目,需要能够对修改器进行分类,例如"很多","一些","很多",&#34 ;一些"等到最低百分比
例如"a lot"
- > 80%
现在我想简单地创建一个与这些修饰符和数值相关的大字典,例如。
a few
- > 15%
some
- > 10%
lots
- > 80%
然而,这非常费力,可能无法涵盖所有情景。有没有更简单的方法来做到这一点,或者是否存在为此目的已经存在的NLP工具 - 最好是在python中(或已经存在数据库?)
答案 0 :(得分:1)
相似性实际上是NLP中的难题。我建议你使用Word2Vec并生成每个单词的单词嵌入。然后你可以比较每个单词对的距离,看看是否可以比你的方式更好。提高单词嵌入效果的关键是选择一个足够大的语料库,并在更接近问题的区域指定。