我应该如何对N-gram句子生成器进行加权,使其不支持短句?

时间:2011-12-20 23:05:40

标签: artificial-intelligence nlp

我正在玩写n-gram句子比较/生成脚本。该模型非常倾向于使用较短的句子,有关如何对更长的句子加重的快速建议吗?

1 个答案:

答案 0 :(得分:2)

假设您计算每个n-gram的分数并按这些分数对ngrams进行排名,您可以通过对n的每个值应用不同的标量权重来调整这些n-gram的分数,例如, v = <0.1, 0.2, 0.5, 0.9, 1.0>,其中v[0]将应用于n == 1的n-gram。通过测量一组代表性解n-gram的相对频率,可以从较大的文本语料库中确定这样的向量(例如,如果您正在寻找句子,则为每个句子计算n,计算频率n的每个值,并根据该数据创建probability distribution