使用Amazon Sagemaker基本事实自动标记文本数据

时间:2019-03-27 11:45:33

标签: amazon-web-services amazon-sagemaker labeling

地面真理进行自动标记所需的最少文本行数是多少?我有一个包含1000行的文本文件,这样是否足以开始使用sagemaker基本事实进行自动标记?

2 个答案:

答案 0 :(得分:1)

我是Amazon SageMaker Ground Truth团队的产品经理,很高兴为您解答这个问题。最低系统要求为1,000个对象。在文本分类的实践中,通常只有在您拥有2,000至3,000个文本对象时,才能看到有意义的结果(自动标记数据的百分比)。请记住,性能是可变的,取决于您的数据集和任务的复杂性。

答案 1 :(得分:0)

从文档

  

您应该仅在大型数据集上使用自动数据标签。主动学习所使用的神经网络需要为每个新数据集提供大量数据。对于较大的数据集,自动标记数据的可能性更大,因此可以降低标记的总成本。我们建议您在使用自动数据标记时使用数千个数据对象。您必须至少使用5,000个数据对象

https://docs.aws.amazon.com/sagemaker/latest/dg/sms-automated-labeling.html