AWS SageMaker随机砍伐森林还是Kinesis Data Analytics随机砍伐森林?

时间:2018-07-27 14:47:19

标签: amazon-web-services amazon-kinesis amazon-kinesis-firehose amazon-sagemaker

我需要建立一个可以检测Web应用程序创建的日志中异常的体系结构。

我的研究中不断弹出“随机砍伐森林”算法,该算法在两种情况下使用:SageMaker和Kinesis Data Analytics。

我应该在体系结构中使用哪两个服务?

1 个答案:

答案 0 :(得分:0)

从根本上讲,两者之间的数学方法几乎相同,但是在Kinesis和SageMaker中实现它们的方式存在一些差异,这将有助于您做出决定。

Kinesis RandomCutForest:

  • 该算法的流版本,非常适合对模型进行近实时更新。
  • 支持旧记录的时间衰减,输入数据的混合以及如果您使用的是多个维度,则异常归因可以帮助您了解每个维度的影响。
  • 因此,如果您的日志存储在CloudWatch中,则可以使用订阅过滤器(如果需要,还可以使用Lambda),可以对其进行预处理并毫不费力地发送到Kinesis。

SageMaker RandomCutForest:

  • 该算法的批处理版本,非常适合大型数据集(通常存储在S3中)或不需要频繁更新模型的地方。
  • 类似于Kinesis,它支持通过推断端点对传入数据点进行近实时评分,但是新数据点不会更改基础模型。
  • 支持超级参数优化,该优化可确定模型的最佳参数集(例如样本数,树数等)
  • 扩展实例以进行培训和评分非常简单,可用的SageMaker Notebook可帮助您预处理和准备数据以进行培训。
  • 因此,如果您的数据集很大并且不需要动态更新模型,那么SageMaker解决方案应该是您的首选解决方案。

希望这能回答您的问题。