首先,如果我不在我的问题中使用正确的术语,我必须明确表示我是新手,请原谅自己。
这是我的情景:
我需要分析大量的文本,如推文,评论,邮件等。数据目前会在发生时插入到Amazon RD MySQL实例中。
稍后我使用RTextTools(http://www.rtexttools.com/)在本地运行和R作业,以输出我想要的结果。此时,重要的是要明确R脚本分析数据并将数据写回MySQL表,稍后将用于显示它。
我最近遇到的问题是,每次运行该作业大约需要1小时,而且我每天至少需要做2次......所以使用我的本地计算机不再是一种选择。
寻找替代方案我开始阅读有关Amazon Elastic MapReduce实例的内容,乍一看似乎是我需要的内容,但是这里开始我的问题和对它的困惑。
非常感谢您的时间,并且非常感谢任何正确方向的提示
答案 0 :(得分:1)
有趣的是,我想提出一些建议。
您可以在S3中完全存储数据,但您必须先将数据写入某个文件(txt等),然后将其推送到S3。你不能把原始的JSON放在S3上。您可以获得通过S3部署的云前端的好处,以便快速检索数据。您也可以使用RDS。您必须自己分析的性能差异。
将结果写回RDS不应该是任何问题。 EMR基本上创建了两个EC2实例,ElasticMapReduce-master和ElasticMapReduce-slave,可用于与RDS通信。
让我知道它是怎么回事,谢谢。
答案 1 :(得分:1)
你应该考虑尝试EMR。如果1小时窗口是约束,则S3 + EMR非常值得尝试。对于您的处理工作负载类型,您可以通过使用可扩展的随需应变hadoop / hive平台来节省周期。显然,有一些学习,重新平台化以及与试验和转换相关的持续集群管理成本。它们是非平凡的。或者,考虑像Qubole这样的服务,它也可以在EC2 + S3上运行,并提供更高级别(可能更容易使用)的抽象。
免责声明:我是Qubole的产品经理。