大数据分析技术选择

时间:2013-03-05 20:38:07

标签: hadoop cassandra hive apache-pig

我被要求评估我们需要用于下述问题的技术。可能的选择是Hadoop,Hive和Pig。我对其中任何一个都没有多少经验。如果你能指出一个好的阅读来源。我谷歌并找到了大量的参考文献,但很难找到一步一步的解释或比较。

这是我需要解决的任务。

用户在系统中输入句子。句子通过单词分解并存储在Cassandra列族中。每行是一个单词(键),列名是输入此记录的时间戳,没有列值。

我需要能够查询数据库并提取从以下细分中获取的N个单词:

a_1%必须是从现在到过去的T1期间的顶级单词 a_2%必须是从现在到过去的T2期间的顶级单词 a_3%必须是从现在到过去的T3期间的顶级单词

a_n%必须是从现在到过去的时间段T_n中的顶部单词

a_1 + a_2 + ... a_n = 100%

和T1,T2等是任意时间间隔。

任何关于我应该用于此任务的技术选择的建议都将非常感激。我们正在使用Cassandra,我们对它很熟悉。现在我们需要决定使用哪种分析工具。

非常感谢链接或细节。

2 个答案:

答案 0 :(得分:2)

如果您在HIVE中对数据进行了分区(按时间间隔),那么在HIVE中可以通过一个查询找到这样的“顶级单词组合”句子。此外,HIVEQL sytnax可能有助于将来进行额外的分析,特别是对于了解SQL的人。问题是如何将Cassandra与Hadoop集成。我希望有人可能会说些什么。 GL!
已编辑:关于互联Cassandra and HIVE的章节很精彩。

答案 1 :(得分:0)

对于大多数技术人员而言,大数据一词并不是很不为人知,尽管每个人都会对此有一些混淆。如果我们从外行人的角度解释这个术语,那么它意味着大量的结构化数据和非结构化数据。现在,在了解了大数据一词的定义之后,我们会想到如何获得大量数据,这是一个非常常见的问题吗?作为这个问题的答案,我们可以说我们通常在与朋友交流时或在我们进行数字交易时或在我们上网时购物时生成数据。

What are the solutions Big Data is providing which seem to be impossible even a few years ago?

我们已经知道,信息,照片,文本,语音和视频数据是大数据的基础,大数据现在涉及许多帮助人类的项目。