CSV和序列文本文件格式的数据源,需要作为Hadoop MapReduce作业运行

时间:2015-08-17 05:18:53

标签: hadoop mapreduce hdfs

我的数据源采用CSV和文本文件格式,我想运行Hadoop Map-reduce作业。

如何将数据源转换为Hadoop序列文件格式并存储在HDFS中。

1 个答案:

答案 0 :(得分:0)

将它们转换为Sequence Files的最简单方法是使用默认的Mapper和Reducer运行mapreduce。您需要将OutputFormatClass指定为SequenceFileOutputFormat。这是驱动程序代码的相关部分。

<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.11.1/jquery.min.js"></script>
<ul class="nav-tabs">
  <li class="active" data-id="1">Painting</li>
  <li data-id="2">Tile Floors</li>
  <!-- Etc -->
  <!-- Etc -->
  <!-- Etc -->
</ul>

<div class="rokSprocket">
  <div class="_1 visible painting">
    <p>Content</p>
  </div>

  <div class="_2 hidden tileFloors">
    <p>Different Content</p>
  </div>

  <!-- Etc -->
  <!-- Etc -->
  <!-- Etc -->
</div>