我正在玩写n-gram句子比较/生成脚本。该模型非常倾向于使用较短的句子,有关如何对更长的句子加重的快速建议吗?
答案 0 :(得分:2)
假设您计算每个n-gram的分数并按这些分数对ngrams进行排名,您可以通过对n
的每个值应用不同的标量权重来调整这些n-gram的分数,例如, v = <0.1, 0.2, 0.5, 0.9, 1.0>
,其中v[0]
将应用于n == 1
的n-gram。通过测量一组代表性解n-gram的相对频率,可以从较大的文本语料库中确定这样的向量(例如,如果您正在寻找句子,则为每个句子计算n
,计算频率n
的每个值,并根据该数据创建probability distribution。