我从地面实况中创建了R& R的训练数据,并注意到每个基本事实问题都记录了10条训练数据,而不依赖于基础事实的候选答案数量。
只有基本事实问题的数量会影响R& R训练数据的大小?我想知道它,因为训练数据存在大小限制。
答案 0 :(得分:0)
注意到每个基本事实问题都有10条训练数据记录,而不依赖于基本事实的候选答案数量
如果您使用python train.py实用程序为R& R准备训练数据,则每个问题的候选答案数由可选的-r
(--rows
)参数控制它指定查询返回的答案结果的数量。默认值为10,这就是您所看到的。
同样,如果您直接使用/fcselect
API调用来生成训练数据,那么您可以类似地使用可选的rows
参数来指定生成要素的候选答案的数量。同样,默认值为10.
如果你有能力这样做,通常最好覆盖这个默认值并尝试更高的值,因为这为排名者提供了更多的学习空间和重新排名答案。 RnR Web工具使用默认值30。
只有基本事实问题的数量会影响R& R训练数据的大小?
不,训练数据的大小与所有方面成比例:(1)查询的数量,(2)每个查询的候选答案的数量,以及(3)特征的数量(列)。特征的数量本身与标记用于特征生成的模式中的字段的数量成比例(即,在默认模式中,它们用类型watson_text_en
标记)。