应用错误收集

我应该如何对N-gram句子生成器进行加权，使其不支持短句？

时间：2011-12-20 23:05:40

标签： artificial-intelligence nlp

我正在玩写n-gram句子比较/生成脚本。该模型非常倾向于使用较短的句子，有关如何对更长的句子加重的快速建议吗？

1 个答案:

答案 0 :(得分：2)

假设您计算每个n-gram的分数并按这些分数对ngrams进行排名，您可以通过对n的每个值应用不同的标量权重来调整这些n-gram的分数，例如， v = <0.1, 0.2, 0.5, 0.9, 1.0>，其中v[0]将应用于n == 1的n-gram。通过测量一组代表性解n-gram的相对频率，可以从较大的文本语料库中确定这样的向量（例如，如果您正在寻找句子，则为每个句子计算n，计算频率n的每个值，并根据该数据创建probability distribution。

从句子生成N-gram
n-gram句子相似度与余弦相似度测量
我应该如何对N-gram句子生成器进行加权，使其不支持短句？
我可以保护Solr中n-gram滤波器的短字吗？
来自句子的N-gram [Lucene 4.9]
在C＃中选择N个最佳句子中的最佳句子
CFG和谷歌n-gram如何结合起来生成句子
在python
如何将一串句子重新格式化为每行一个句子Python
如何通过在Python中使用n-gram重叠来对句子进行聚类？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？