我是R的长期用户,最近开始使用Python。使用传统的RDBMS系统进行数据仓库,使用R / Python进行数字运算,我觉得现在需要掌握大数据分析。
我想知道如何开始大数据处理。 - 如何从Map / Reduce和Hadoop的使用开始简单
总而言之,我想知道如何从小规模开始逐步建立我在大数据分析中的技能和专业知识。
感谢您的建议和意见。 我为这个查询的通用性质道歉,但我希望从这个主题获得更多的观点。
答案 0 :(得分:29)
以Python Disco项目为例。
好。玩那个。
使用RHIPE包并查找玩具数据集和问题区域。
精细。也可以玩。
不要冒汗找到“大”数据集。即使是小数据集也存在非常有趣的问题。实际上,任何数据集都是起点。
我曾经建立了一个小型星型模式,用于分析组织的6000万美元预算。源数据在电子表格中,基本上是不可理解的。所以我将它卸载到星型模式中,并用Python编写了几个分析程序,以创建相关数字的简化报告。
找到正确的信息,让我决定是否需要从RDBMS类型数据库迁移到NoSQL
这很容易。
首先,请阅读一本关于数据仓库的书(例如Ralph Kimball的数据仓库工具包)。
其次,仔细研究“星际模式” - 特别是Kimball解释的所有变体和特殊情况(深入)
第三,实现以下内容:SQL用于更新和事务。
进行“分析”处理(大或小)时,几乎没有任何更新。 SQL(以及相关的规范化)不再重要了。
Kimball的观点(以及其他人)也就是说,你的大多数数据仓库都不在SQL中,而是在简单的平面文件中。数据集市(用于临时,切片和骰子分析)可以位于关系数据库中,以允许使用SQL轻松,灵活地处理。
所以“决定”是微不足道的。如果它是事务性的(“OLTP”),则它必须位于Relational或OO DB中。如果是分析(“OLAP”),它除了切片和骰子分析外不需要SQL;即使这样,DB也会根据需要从官方文件加载。
答案 1 :(得分:1)
您可以考虑的一件事是DMelt(http://jwork.org/dmelt/)数据分析程序。一个值得注意的特性是它有数百个使用Python语言的例子和一些书籍。我使用它的原因是它在我的Windows 10上运行(因为它使用Java VM),而且它具有非常好的2D / 3D图形,可以导出为矢量图形格式。