训练SyntaxNet需要多少数据?

时间:2017-01-26 15:45:28

标签: machine-learning training-data pos-tagger syntaxnet dependency-parsing

我知道数据越多越好,但培训SyntaxNet所需的合理数据量是多少?

1 个答案:

答案 0 :(得分:3)

根据一些反复试验,我得出以下最低要求:

  • 训练语料库 - 18,000个令牌(任何小于此值的步骤和步骤2 - 使用Tagger进行预处理失败)
  • 测试语料库 - 2,000个令牌(任何小于此值和步骤2 - 使用Tagger进行预处理 - 失败)
  • 开发语料库 - 2,000个令牌

    但请注意,有了这个,我只是设法让NLP管道中的步骤运行,我实际上还没有设法从中获得任何可用的东西。

  • 相关问题