我对大数据领域很天真。我开始探索像Hadoop这样的工具,并清楚了解这个框架和Map / Reduce框架,但仍然有很多问题: 实际上我想分析电子邮件并做一些电子邮件分类,以便我可以将电子邮件组织成不同的类别,但我想知道如何将这些电子邮件存储到HDFS中。 我应该首先将我的电子邮件转换为文本文件(由间隔分隔的列组成:日期,作者,主题,内容..)或由二进制键值对组成的序列文件,然后将文件存储到HDFS中?
我不习惯使用序列文件,但我读过许多关于HDFS如何将非结构化数据存储到这些类型的文件中的文章。 有人可以赐教我吗?
提前致谢。