地面真理进行自动标记所需的最少文本行数是多少?我有一个包含1000行的文本文件,这样是否足以开始使用sagemaker基本事实进行自动标记?
答案 0 :(得分:1)
我是Amazon SageMaker Ground Truth团队的产品经理,很高兴为您解答这个问题。最低系统要求为1,000个对象。在文本分类的实践中,通常只有在您拥有2,000至3,000个文本对象时,才能看到有意义的结果(自动标记数据的百分比)。请记住,性能是可变的,取决于您的数据集和任务的复杂性。
答案 1 :(得分:0)
从文档
您应该仅在大型数据集上使用自动数据标签。主动学习所使用的神经网络需要为每个新数据集提供大量数据。对于较大的数据集,自动标记数据的可能性更大,因此可以降低标记的总成本。我们建议您在使用自动数据标记时使用数千个数据对象。您必须至少使用5,000个数据对象
https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html